Telegram Group Search
К вопросу о российской статистике и доступных онлайн ресурсах. При архивации сайтов Росстата всплывают интересные артефакты, например, сайт mosag.rosstat.gov.ru с названием О портале Статистический портал Москвы и Московской агломерации

Я, честно говоря, вначале обрадовался и решил что именно там сейчас найдётся актуальная база статпоказателей, но нет.

Это оказался всего лишь BI портал, с годовыми показателями за 2010-2022 годы по Москве и Московской области, без муниципального деления.

Не то чтобы он совсем неживой, кое где есть данные за 2023 год, но за 2024 уже не найти и никакой ширины охвата там нет.

Архивации, он, разумеется, не поддаётся поскольку выгрузка данных там только интерактивная, а страницы BI порталов не архивируются.

Вспоминается анекдот о том что в продаже появились подделки ёлочных игрушек, выглядят как настоящие, но не радуют.

#opendata #data #statistics
Я ранее уже писал про хакатон СберИндекса на котором ожидаются интересные муниципальные данные и не могу не обратить внимание на группу задач на сайте хакатона которые можно назвать "новые наборы данных".

Если вкратце, то в России и на постсоветском пространстве стран не входящих в ЕС, есть застарелая проблема с отсутствием муниципальных данных и, в принципе, систематизированного сбора муниципальной статистики. То что есть сейчас, скажем так, вызывает некоторые сомнения.

Поэтому всегда остаётся вопрос, где взять муниципальные данные? И тут я обозначу некоторые очевидные и не такие очевидные источники.

1. Терр органы Росстата
У Росстата множество терр. органов с разной степенью качества и полноты публикации материалов. Тем не менее на их сайтах бывают и Excel файлы с паспортами муниципалитетов, и отдельные статистические таблицы и отчеты и многое другое. Работа с этими данными может потребовать навыков их извлечения из PDF и MS Word файлов, но может дать полезные дополнительные данные по конкретным регионам и муниципалитетам.

2. Некоторые статпоказатели в ЕМИСС

ЕМИСС - это единая межведомственная система статистики (fedstat.ru) и, в целом, она не то чтобы наполнена очень актуальными данными и по большей части там про страну в целом и про регионы, тем не менее, там есть несколько показателей охватывающих города (не все муниципалитеты, а именно города).
Например:
- Индекс потребительских цен (тарифов) на отдельные товары и услуги - обновляется еженедельно, 145 видов товаров и несколько сотен городов

Возможно там есть и другие данные, их можно поискать самостоятельно или дождаться когда мы закончим архивацию ЕМИСС, но это может быть и до хакатона, так что имеет смысл поизучать самостоятельно.

3. Международные данные ООН

Да, некоторые данные связанные с городами есть в международной статистике. Например, статистике ООН есть показатели демографии за 2005-2012 годы по российским городам. Конечно данные за 2012 год уже не очень актуальны, но речь о том что в базе ООН. Потому что есть и более новые датасеты, 4-х летней давности. О чём я? О том что стоит поискать там внимательнее и на других порталах международной статистики, там могут быть данные привязанные к городам.

4. Региональные порталы данных: Москва

В некоторых регионах есть, и живые порталы открытых данных и другие каталоги данных. Например, в Москве живой портал data.mos.ru и ehd.moscow. Подсказка и там и там много муниципальных данных, но нужно приложить усилия для их интеграции с другими данными, например, теми что есть в СберИндексе

5. И, наконец, конечно поиск данных через ИИ

Да, всегда можно сформулировать промпт "Найди сайты с муниципальной статистикой Санкт-Петербурга" или для любого другого региона и получить некоторые полезные ссылки

Это не исчерпывающий список источников муниципальных и региональных данных, несомненно их гораздо больше. Создание сводных наборов интегрирующих хотя бы некоторые из них - это важный дата продукт полезный для анализа данных.

#opendata #statistics #municipalities #cities #russia
В рубрике закрытых данных в России, вышло Постановление Правительства Российской Федерации от 17.05.2025 № 679"О приостановлении действия пункта 21 Положения о федеральной государственной информационной системе "Единый фонд геологической информации о недрах" [1] согласно которому доступ в ЕФГИ (efgi.ru) [2] теперь только через Госуслуги.

Новость несомненно печальная. Доступ через ЕСИА отрубает любую возможность автоматического доступа к данным, кроме как если владелец данных не предоставить API отдельно.

Ссылки:
[1] http://publication.pravo.gov.ru/document/0001202505190033?index=1
[2] https://efgi.ru

#opendata #closeddata #russia
В рубрике как это устроено у них портал данных Международной продовольственной программы (WFP) [1]

Включает данные климатического эксплорера где по большинстве стран можно узнать текущие и исторические данные по осадкам и другим климатическим данным.

Выглядит очень интересно и может быть полезно для тех кто анализирует гиперлокальные (муниципальные) данные поскольку по большинству стран мониторинг охватывает до второго административного уровня - муниципаоитетов, проще говоря.

С одним очень большим но... Это большое НО - это Россия. По России доступны только общестрановые данные, что для огромной страны кажется особенно странным. Нет даже данных по регионам, хотя на карте они все есть и у структур ООН есть данные о российских границах. Лично я, конечно, подозреваю с чем это связано.

Для примера, данные по районам Армении.

Ссылки:
[1] https://dataviz.vam.wfp.org

#opendata #dataviz #climate #data #russia
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Главархив Москвы запустил бесплатный электронный читальный зал

На сайте Главархива Москвы (cgamos.ru) появился сервис для онлайн-доступа к читальному залу: пользователи теперь могут просматривать оцифрованные копии архивных дел (метрические книги, ревизский сказки, личные дела и пр.), а со следующего года можно будет «воспользоваться каталогом аудиовизуальных документов, книжных и периодических изданий» (надеюсь, тут подразумевается использование не только каталога, но и доступ к этим изданиям).

Хочется надеяться, что другие региональные архивы возьмут пример с Главархива, а может пойдут и дальше - добавят возможность бесплатно скачать нужный документ или отдельные страницы. Например, электронный читальный зал уже несколько лет доступен в Санкт-Петербурге (spbarchives.ru), но, к сожалению, только на платной основе (оплатить необходимо как доступ к просмотру документов, так и их постраничную выгрузку).

Напоминаю, что с прошлого года мы ведем проект Цифровой архив госфинансов и госуправления (@finlibraryru, finlibrary.ru), в котором можно не только посмотреть любой заинтересовавший документ, но и скачать его.
Полезное чтение про данные, технологии и не только:
- On file formats [1] автор систематизирует рекомендации тем кто придумывает собственные форматы файлов. Всё достаточно сжато и по делу.
- A deep dive into AlloyDB’s vector search enhancements [2] о применении векторного поиска и операций со ScanNN индексе в AlloyDB расширении для Postgres. О том как ИИ проникает в СУБД и там закрепляется.
- TrailBase [3] замена Firebase с открытым кодом
- LiamERD [4] красивые ERD диаграммы для ваших баз данных, с открытым кодом


Ссылки:
[1] https://solhsa.com/oldernews2025.html#ON-FILE-FORMATS
[2] https://cloud.google.com/blog/products/databases/alloydb-ais-scann-index-improves-search-on-all-kinds-of-data/
[3] https://github.com/trailbaseio/trailbase
[4] https://liambx.com/

#opensource #data #datatools
Microsoft опубликовали Windows Subsystem for Linux как открытый код под MIT лицензией [1], а это большой проект с 70 контрибьюторами и 9 годами разработки.

У них там более тысячи issues большая часть которых это запросы на фичи, может быть теперь и появление новых возможностей ускорится.

Больше открытого исходного кода под свободными лицензиями - это, несомненно, хорошая новость.

Ссылки:
[1] https://blogs.windows.com/windowsdeveloper/2025/05/19/the-windows-subsystem-for-linux-is-now-open-source/

#opensource #microsoft
Для тех кто ищет российские муниципальные данные и не знает где найти, я ранее писал о некоторых очевидных и неочевидных их источниках, но их, конечно же, гораздо больше.

Вот тут пополнение списка, с данными по городам и районам:
- ДомКлик - https://blog.domclick.ru/analytics
- ВЭБ Индекс - https://citylifeindex.ru/database?pageType=CITIES
- Единое Хранилище Данных Москвы - https://ehd.moscow/
- Показатели жилищного строительства - https://наш.дом.рф/аналитика/показатели_жилищного_строительства

Кроме того в ЕМИСС (fedstat.ru) есть, как минимум, 101 индикатор которые охватывают города, только крупнейшие, но хотя бы так.

С некоторыми разумными усилиями эти данные могут быть связаны с данными Сбербанка на хакатоне Сбериндекса, на который ещё можно податься.

#opendata #hyperlocal #hackathons #data #datasets
Свежая колонка в российском Forbes за моим авторством по поводу того как МВД начнёт следить за иностранцами в РФ в ближайшем будущем https://www.forbes.ru/tekhnologii/538203-test-na-antiutopiu-na-cto-pohoz-zakon-o-kontrole-inostrancev-cerez-smartfony

Честно говоря, я бы на эту тему скорее рассказ написал потому что сюжет уж очень просится на антиутопическую социальную фантастику.

Трудно писать о подобном не абстрагируясь. Лично мне абстрагироваться помогает написание всякой фантастики, в этом плане окружающая действительность это находка для начинающего фантаста-антиутописта.

#readings #writings #privacy
Что означает новость про то что Grok будет встроен в телеграм? То что появляется дополнительная сторона в обработке персональных данных при использовании Телеграм. Вопрос в том в каком объёме и в каких случаях данные будут передаваться. Подозреваю что согласие будет однократным, а использование без ограничений.

То что на это возбудятся европейские регуляторы - это несомненно. Российский регулятор тоже, но в России Телеграм практически безальтернативен.

Очень жду когда кто-то предметно проведет анализ этой интеграции и её последствий.

#privacy #telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Собственно видео про интеграцию Grok'а и Telegram из поста Дурова в X https://x.com/durov/status/1927705717626003759

Интеграция там совсем не лайт, а вполне себе углублённая.

#ai #telegram #privacy
Yambda-5B [1] огромный набор данных от Яндекса с данными по рекомендациям в Яндекс Музыке. В максимальной версии - это около 75GB в файлах Parquet и чуть менее 5 миллиардов записей. Это реально очень много и на настольном железе поработать с таким объёмом будет очень сложно.

Будет очень интересен тем кто изучает рекомендательные системы.

Ссылки:
[1] https://huggingface.co/datasets/yandex/yambda

#opendata #datasets #data #yandex
Я тут часто пишу про муниципальные данные и что некоторые, всё же, есть, ну или хотя бы с какой-то агрегацией. Очень часто данные скрыты в публикациях и презентациях. Что, сильно, ограничивает их сбор, но вручную можно иа даже их. К примеру, портал криминальной статистики crimestat.ru не обновляется с 4-го квартала 2022 года, но кусочки статистики есть в отдельных разделах Генпрокуратуры РФ. В разном качестве, разных форматах и разной периодичностью, но кое что есть. Например, в разделе прокуратуры Москвы есть графики со статистикой по округам [1]. Да, в pdf или pptx файлах презентаций, но на сайте МВД нет и такой детализации как и на большинстве сайтов региональных прокуратур. Правда я скажу честно что не проверял их все, а только примерно штук 20, но картина общая именно такова. В основном же, либо актуальные данные очень обобщённые (и по разному публикуемые!), либо не публикуются вовсе много лет.

Хотя я и искал плохие примеры публикации статистики, это лучше чем полное её отсутствие. При большом желании можно вручную через LLM'ки превращать презентации с графиками в таблицы и восстанавливать временные ряды и получать хоть какое-то приближение к муниципальных данным.

Ссылки:
[1] https://epp.genproc.gov.ru/web/proc_77/activity/statistics/result

#opendata #closeddata #russia #crimestatistics
2025/05/28 20:03:07
Back to Top
HTML Embed Code: