Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Главархив Москвы запустил бесплатный электронный читальный зал
На сайте Главархива Москвы (cgamos.ru) появился сервис для онлайн-доступа к читальному залу: пользователи теперь могут просматривать оцифрованные копии архивных дел (метрические книги, ревизский сказки, личные дела и пр.), а со следующего года можно будет «воспользоваться каталогом аудиовизуальных документов, книжных и периодических изданий» (надеюсь, тут подразумевается использование не только каталога, но и доступ к этим изданиям).
Хочется надеяться, что другие региональные архивы возьмут пример с Главархива, а может пойдут и дальше - добавят возможность бесплатно скачать нужный документ или отдельные страницы. Например, электронный читальный зал уже несколько лет доступен в Санкт-Петербурге (spbarchives.ru), но, к сожалению, только на платной основе (оплатить необходимо как доступ к просмотру документов, так и их постраничную выгрузку).
Напоминаю, что с прошлого года мы ведем проект Цифровой архив госфинансов и госуправления (@finlibraryru, finlibrary.ru), в котором можно не только посмотреть любой заинтересовавший документ, но и скачать его.
На сайте Главархива Москвы (cgamos.ru) появился сервис для онлайн-доступа к читальному залу: пользователи теперь могут просматривать оцифрованные копии архивных дел (метрические книги, ревизский сказки, личные дела и пр.), а со следующего года можно будет «воспользоваться каталогом аудиовизуальных документов, книжных и периодических изданий» (надеюсь, тут подразумевается использование не только каталога, но и доступ к этим изданиям).
Хочется надеяться, что другие региональные архивы возьмут пример с Главархива, а может пойдут и дальше - добавят возможность бесплатно скачать нужный документ или отдельные страницы. Например, электронный читальный зал уже несколько лет доступен в Санкт-Петербурге (spbarchives.ru), но, к сожалению, только на платной основе (оплатить необходимо как доступ к просмотру документов, так и их постраничную выгрузку).
Напоминаю, что с прошлого года мы ведем проект Цифровой архив госфинансов и госуправления (@finlibraryru, finlibrary.ru), в котором можно не только посмотреть любой заинтересовавший документ, но и скачать его.
Полезное чтение про данные, технологии и не только:
- On file formats [1] автор систематизирует рекомендации тем кто придумывает собственные форматы файлов. Всё достаточно сжато и по делу.
- A deep dive into AlloyDB’s vector search enhancements [2] о применении векторного поиска и операций со ScanNN индексе в AlloyDB расширении для Postgres. О том как ИИ проникает в СУБД и там закрепляется.
- TrailBase [3] замена Firebase с открытым кодом
- LiamERD [4] красивые ERD диаграммы для ваших баз данных, с открытым кодом
Ссылки:
[1] https://solhsa.com/oldernews2025.html#ON-FILE-FORMATS
[2] https://cloud.google.com/blog/products/databases/alloydb-ais-scann-index-improves-search-on-all-kinds-of-data/
[3] https://github.com/trailbaseio/trailbase
[4] https://liambx.com/
#opensource #data #datatools
- On file formats [1] автор систематизирует рекомендации тем кто придумывает собственные форматы файлов. Всё достаточно сжато и по делу.
- A deep dive into AlloyDB’s vector search enhancements [2] о применении векторного поиска и операций со ScanNN индексе в AlloyDB расширении для Postgres. О том как ИИ проникает в СУБД и там закрепляется.
- TrailBase [3] замена Firebase с открытым кодом
- LiamERD [4] красивые ERD диаграммы для ваших баз данных, с открытым кодом
Ссылки:
[1] https://solhsa.com/oldernews2025.html#ON-FILE-FORMATS
[2] https://cloud.google.com/blog/products/databases/alloydb-ais-scann-index-improves-search-on-all-kinds-of-data/
[3] https://github.com/trailbaseio/trailbase
[4] https://liambx.com/
#opensource #data #datatools
Google Cloud Blog
AlloyDB AI’s ScaNN index improves search on all kinds of data | Google Cloud Blog
Recent innovations in AlloyDB AI’s ScaNN index improve performance and quality of search over structured and unstructured data.
Microsoft опубликовали Windows Subsystem for Linux как открытый код под MIT лицензией [1], а это большой проект с 70 контрибьюторами и 9 годами разработки.
У них там более тысячи issues большая часть которых это запросы на фичи, может быть теперь и появление новых возможностей ускорится.
Больше открытого исходного кода под свободными лицензиями - это, несомненно, хорошая новость.
Ссылки:
[1] https://blogs.windows.com/windowsdeveloper/2025/05/19/the-windows-subsystem-for-linux-is-now-open-source/
#opensource #microsoft
У них там более тысячи issues большая часть которых это запросы на фичи, может быть теперь и появление новых возможностей ускорится.
Больше открытого исходного кода под свободными лицензиями - это, несомненно, хорошая новость.
Ссылки:
[1] https://blogs.windows.com/windowsdeveloper/2025/05/19/the-windows-subsystem-for-linux-is-now-open-source/
#opensource #microsoft
Для тех кто ищет российские муниципальные данные и не знает где найти, я ранее писал о некоторых очевидных и неочевидных их источниках, но их, конечно же, гораздо больше.
Вот тут пополнение списка, с данными по городам и районам:
- ДомКлик - https://blog.domclick.ru/analytics
- ВЭБ Индекс - https://citylifeindex.ru/database?pageType=CITIES
- Единое Хранилище Данных Москвы - https://ehd.moscow/
- Показатели жилищного строительства - https://наш.дом.рф/аналитика/показатели_жилищного_строительства
Кроме того в ЕМИСС (fedstat.ru) есть, как минимум, 101 индикатор которые охватывают города, только крупнейшие, но хотя бы так.
С некоторыми разумными усилиями эти данные могут быть связаны с данными Сбербанка на хакатоне Сбериндекса, на который ещё можно податься.
#opendata #hyperlocal #hackathons #data #datasets
Вот тут пополнение списка, с данными по городам и районам:
- ДомКлик - https://blog.domclick.ru/analytics
- ВЭБ Индекс - https://citylifeindex.ru/database?pageType=CITIES
- Единое Хранилище Данных Москвы - https://ehd.moscow/
- Показатели жилищного строительства - https://наш.дом.рф/аналитика/показатели_жилищного_строительства
Кроме того в ЕМИСС (fedstat.ru) есть, как минимум, 101 индикатор которые охватывают города, только крупнейшие, но хотя бы так.
С некоторыми разумными усилиями эти данные могут быть связаны с данными Сбербанка на хакатоне Сбериндекса, на который ещё можно податься.
#opendata #hyperlocal #hackathons #data #datasets
Свежая колонка в российском Forbes за моим авторством по поводу того как МВД начнёт следить за иностранцами в РФ в ближайшем будущем https://www.forbes.ru/tekhnologii/538203-test-na-antiutopiu-na-cto-pohoz-zakon-o-kontrole-inostrancev-cerez-smartfony
Честно говоря, я бы на эту тему скорее рассказ написал потому что сюжет уж очень просится на антиутопическую социальную фантастику.
Трудно писать о подобном не абстрагируясь. Лично мне абстрагироваться помогает написание всякой фантастики, в этом плане окружающая действительность это находка для начинающего фантаста-антиутописта.
#readings #writings #privacy
Честно говоря, я бы на эту тему скорее рассказ написал потому что сюжет уж очень просится на антиутопическую социальную фантастику.
Трудно писать о подобном не абстрагируясь. Лично мне абстрагироваться помогает написание всякой фантастики, в этом плане окружающая действительность это находка для начинающего фантаста-антиутописта.
#readings #writings #privacy
Forbes.ru
Тест на антиутопию: на что похож закон о контроле иностранцев через смартфоны
С 1 сентября власти Москвы и Московской области начнут контролировать местоположение въезжающих в столичный регион мигрантов. Законопроект о проведении такого эксперимента 20 мая приняли депутаты Госдумы. Иностранцы должны будут зарегистрироваться в
Что означает новость про то что Grok будет встроен в телеграм? То что появляется дополнительная сторона в обработке персональных данных при использовании Телеграм. Вопрос в том в каком объёме и в каких случаях данные будут передаваться. Подозреваю что согласие будет однократным, а использование без ограничений.
То что на это возбудятся европейские регуляторы - это несомненно. Российский регулятор тоже, но в России Телеграм практически безальтернативен.
Очень жду когда кто-то предметно проведет анализ этой интеграции и её последствий.
#privacy #telegram
То что на это возбудятся европейские регуляторы - это несомненно. Российский регулятор тоже, но в России Телеграм практически безальтернативен.
Очень жду когда кто-то предметно проведет анализ этой интеграции и её последствий.
#privacy #telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Собственно видео про интеграцию Grok'а и Telegram из поста Дурова в X https://x.com/durov/status/1927705717626003759
Интеграция там совсем не лайт, а вполне себе углублённая.
#ai #telegram #privacy
Интеграция там совсем не лайт, а вполне себе углублённая.
#ai #telegram #privacy
Yambda-5B [1] огромный набор данных от Яндекса с данными по рекомендациям в Яндекс Музыке. В максимальной версии - это около 75GB в файлах Parquet и чуть менее 5 миллиардов записей. Это реально очень много и на настольном железе поработать с таким объёмом будет очень сложно.
Будет очень интересен тем кто изучает рекомендательные системы.
Ссылки:
[1] https://huggingface.co/datasets/yandex/yambda
#opendata #datasets #data #yandex
Будет очень интересен тем кто изучает рекомендательные системы.
Ссылки:
[1] https://huggingface.co/datasets/yandex/yambda
#opendata #datasets #data #yandex
Я тут часто пишу про муниципальные данные и что некоторые, всё же, есть, ну или хотя бы с какой-то агрегацией. Очень часто данные скрыты в публикациях и презентациях. Что, сильно, ограничивает их сбор, но вручную можно иа даже их. К примеру, портал криминальной статистики crimestat.ru не обновляется с 4-го квартала 2022 года, но кусочки статистики есть в отдельных разделах Генпрокуратуры РФ. В разном качестве, разных форматах и разной периодичностью, но кое что есть. Например, в разделе прокуратуры Москвы есть графики со статистикой по округам [1]. Да, в pdf или pptx файлах презентаций, но на сайте МВД нет и такой детализации как и на большинстве сайтов региональных прокуратур. Правда я скажу честно что не проверял их все, а только примерно штук 20, но картина общая именно такова. В основном же, либо актуальные данные очень обобщённые (и по разному публикуемые!), либо не публикуются вовсе много лет.
Хотя я и искал плохие примеры публикации статистики, это лучше чем полное её отсутствие. При большом желании можно вручную через LLM'ки превращать презентации с графиками в таблицы и восстанавливать временные ряды и получать хоть какое-то приближение к муниципальных данным.
Ссылки:
[1] https://epp.genproc.gov.ru/web/proc_77/activity/statistics/result
#opendata #closeddata #russia #crimestatistics
Хотя я и искал плохие примеры публикации статистики, это лучше чем полное её отсутствие. При большом желании можно вручную через LLM'ки превращать презентации с графиками в таблицы и восстанавливать временные ряды и получать хоть какое-то приближение к муниципальных данным.
Ссылки:
[1] https://epp.genproc.gov.ru/web/proc_77/activity/statistics/result
#opendata #closeddata #russia #crimestatistics
DuckLake (утиное озеро) [1] новый продукт от команды DuckDB по созданию озер данных с помощью DuckDB. Очень похоже по идеологии на Apache Iceberg и Delta Lake, но с хранением метаданных в SQL, а данных в Parquet файлах.
Тот случай когда выглядит интересно и надо приглядеться к работе на практике. Лично я чаще сталкиваюсь с редко обновляемыми данными большого объёма где транзакции сильно вторичны к скорости доступа к данным. Возможно DuckLake было бы лучшим решением для такого. А может быть и нет. Надо изучать и посмотреть на примеры внедрения.
Ссылки:
[1] https://duckdb.org/2025/05/27/ducklake
#data #opensource #datatools #duckdb
Тот случай когда выглядит интересно и надо приглядеться к работе на практике. Лично я чаще сталкиваюсь с редко обновляемыми данными большого объёма где транзакции сильно вторичны к скорости доступа к данным. Возможно DuckLake было бы лучшим решением для такого. А может быть и нет. Надо изучать и посмотреть на примеры внедрения.
Ссылки:
[1] https://duckdb.org/2025/05/27/ducklake
#data #opensource #datatools #duckdb
Вышел свежий доклад Global Data Barometer [1] про доступность открытых данных в мире. Глобальным он, увы, быть перестал и сейчас его охват не по всем странам, а только по некоторым развивающимся (всего 43 страны).
Для тех кто развивающимися странами интересуется может быть интересно.
Например, увидеть крупные пробелы в доступности данных о языках, лоббировании и политической ответственности и регистрах компаний.
А лучше всего раскрываются данные о закупках и госрасходах.
В любом случае жаль потери глобальности.
Ссылки:
[1] https://globaldatabarometer.org/
#opendata
Для тех кто развивающимися странами интересуется может быть интересно.
Например, увидеть крупные пробелы в доступности данных о языках, лоббировании и политической ответственности и регистрах компаний.
А лучше всего раскрываются данные о закупках и госрасходах.
В любом случае жаль потери глобальности.
Ссылки:
[1] https://globaldatabarometer.org/
#opendata
Полезное чтение про данные, технологии и не только:
- Behind the Curtain: A white-collar bloodbath заметка в Axios по итогам выступления Dario Amodei, главы Anthropic о кризисе работы для белых воротничков в самое ближайшее время и о том что правительствам (США) надо собирать "налог на токены". Тут есть о чём подискутировать, начиная с того что кроме правительств США и Китая никто более налогов с этого не наберёт.
- Measuring the US-China AI Gap свежее исследование с анализом разрыва в области ИИ между США и Китаем от Insikt Group. Сжатое изложение полезного материала.
- Introducing Apache Spark 4.0 вышла 4-я версия Apache Spark где много нового в его Python API включая нового легковесного API клиента да и много других полезных изменений.
- Meet the dbt Fusion Engine: the new Rust-based, industrial-grade engine for dbt важное для всех кто пользуется dbt, после покупки sdf команда dbt Labs выпустила новый движок на базе Rust и обещают что он лучше, быстрее, эффективнее и тд.
- ClickStack: A High-Performance OSS Observability Stack on ClickHouse я так понимаю что Clickhouse выбрали одним из направлений конкуренцию со стеком Elastic / OpenSearch для сбора логов и наблюдаемости (observability) и ClickStack именно такое решение с открытым кодом.
- Perplexity Labs свежий сервис от Perplexity который ориентированный навоплощение идей в реальность выполнение задач по созданию продуктов с начала и до завершения. Не они первые, не они последние, инструмент полезный, один из тех что дожирают рынок фриланса
- Opening code, opening access: The World Bank’s first open source software release первый релиз открытого кода от команды Всемирного банка, они разместили код Metadata Editor инструмента описания документов, индикаторов, геоданных и иных объектов. С акцентом на статистику, конечно же. Полезно изучить тем создает и работает с официальной статистикой.
#ai #statistics #opensource #data #datatools
- Behind the Curtain: A white-collar bloodbath заметка в Axios по итогам выступления Dario Amodei, главы Anthropic о кризисе работы для белых воротничков в самое ближайшее время и о том что правительствам (США) надо собирать "налог на токены". Тут есть о чём подискутировать, начиная с того что кроме правительств США и Китая никто более налогов с этого не наберёт.
- Measuring the US-China AI Gap свежее исследование с анализом разрыва в области ИИ между США и Китаем от Insikt Group. Сжатое изложение полезного материала.
- Introducing Apache Spark 4.0 вышла 4-я версия Apache Spark где много нового в его Python API включая нового легковесного API клиента да и много других полезных изменений.
- Meet the dbt Fusion Engine: the new Rust-based, industrial-grade engine for dbt важное для всех кто пользуется dbt, после покупки sdf команда dbt Labs выпустила новый движок на базе Rust и обещают что он лучше, быстрее, эффективнее и тд.
- ClickStack: A High-Performance OSS Observability Stack on ClickHouse я так понимаю что Clickhouse выбрали одним из направлений конкуренцию со стеком Elastic / OpenSearch для сбора логов и наблюдаемости (observability) и ClickStack именно такое решение с открытым кодом.
- Perplexity Labs свежий сервис от Perplexity который ориентированный на
- Opening code, opening access: The World Bank’s first open source software release первый релиз открытого кода от команды Всемирного банка, они разместили код Metadata Editor инструмента описания документов, индикаторов, геоданных и иных объектов. С акцентом на статистику, конечно же. Полезно изучить тем создает и работает с официальной статистикой.
#ai #statistics #opensource #data #datatools
Я недавно рассказывал что в качестве хобби занимаюсь написанием коротких наивных фантастических рассказов в стиле утопий и антиутопий. Причём поскольку прозаический опыт у меня ограниченный, я пытаюсь писать их по науке: видение -> синопсис - > пара тестовых глав -> основной текст. Это хорошая разминка для ума для которой я постоянно собираю контекст и наша антиутопическая реальность, конечно, даёт много идей.
Важная часть таких рассказов - это контекст, не фабула произведения, а среда в которой всё происходит. А поскольку сейчас одна из самых остросоциальных тем - это ИИ, то без ИИ тут не обойтись.
У меня есть какое-то число мыслей про такой контекст, а если Вы готовы поделитесь Вашими мыслями, милости прошу в комментарии:
1. Видеть невидимое. С помощью ИИинструменты наблюдения резко усиливаются. Работает сбор данных в недоступных человеку спектрах, радиодиапазонах и границ слышимости.
2. Большие прогностические модели. Непрерывно работающие прогностические модели и ИИ манипулирующий рынками. Длительный кризис фондовых рынков.
3.AI-Free зоны. В которых отключен интернет и любая связь. Там сдают экзамены и ходят на свидания ( чтобы тому кто на него идет ИИ нп подсказывал как себя вести).
Все это именно контекст, фабула по более классическим сценариям про кровь, любовь и риторику.
А какие варианты будущего как контекста видите вы?
#thoughts #writings
Важная часть таких рассказов - это контекст, не фабула произведения, а среда в которой всё происходит. А поскольку сейчас одна из самых остросоциальных тем - это ИИ, то без ИИ тут не обойтись.
У меня есть какое-то число мыслей про такой контекст, а если Вы готовы поделитесь Вашими мыслями, милости прошу в комментарии:
1. Видеть невидимое. С помощью ИИинструменты наблюдения резко усиливаются. Работает сбор данных в недоступных человеку спектрах, радиодиапазонах и границ слышимости.
2. Большие прогностические модели. Непрерывно работающие прогностические модели и ИИ манипулирующий рынками. Длительный кризис фондовых рынков.
3.AI-Free зоны. В которых отключен интернет и любая связь. Там сдают экзамены и ходят на свидания ( чтобы тому кто на него идет ИИ нп подсказывал как себя вести).
Все это именно контекст, фабула по более классическим сценариям про кровь, любовь и риторику.
А какие варианты будущего как контекста видите вы?
#thoughts #writings
Про архивацию сайтов, моё хобби, которое уже почти стало моей работой. Вот буквально несколько дней назад я мы для @ruarxive закончили архивировать все сайты Росстата и его терр. управлений. В итоге это около 315GB в сжатом виде. Много это или мало? Это нормально для такого числа сайтов и, наверное, можно было бы ещё лучше если бы добавить в исключение архивацию видеофайлов ибо кому они нужны.
Так вот, по хорошему, конечно надо проводить тотальную архивацию всех госсайтов в РФ, хотя бы ФОИВов и региональных властей. Но, есть большое НО о котором я уже писал. Подавляющее число сайтов российских органов власти недоступны из нероссийских подсетей и, хуже того, быстро блокируют доступы даже из российских.
Например, попытка архивировать сайт Таможенной службы РФ привела к блокировке краулера после выгрузки 160MB, совсем немного. Конечно можно вспомнить про возможность использования многих IP адресов, того что можно переключать прокси, но... Это всё хорошо для коммерческого парсинга и очень плохо для некоммерческой архивации.
В итоге даже с серверов/IP адресов в России можно сохранить не всё. И что с этим делать?
#webarchives #digitalpreservation
Так вот, по хорошему, конечно надо проводить тотальную архивацию всех госсайтов в РФ, хотя бы ФОИВов и региональных властей. Но, есть большое НО о котором я уже писал. Подавляющее число сайтов российских органов власти недоступны из нероссийских подсетей и, хуже того, быстро блокируют доступы даже из российских.
Например, попытка архивировать сайт Таможенной службы РФ привела к блокировке краулера после выгрузки 160MB, совсем немного. Конечно можно вспомнить про возможность использования многих IP адресов, того что можно переключать прокси, но... Это всё хорошо для коммерческого парсинга и очень плохо для некоммерческой архивации.
В итоге даже с серверов/IP адресов в России можно сохранить не всё. И что с этим делать?
#webarchives #digitalpreservation
В рубрике, как это устроено у них, историческая статистика Италии [1] на портале Serie storiche (Timeseries) статистической службы Италии. Включает данные 1500 индикаторов по 22 темам начиная с 19 века, пока некоторым индикаторам с 1854 года.
Все данные в формате Excel файлов которые были созданы на основе статистических изданий 20го века с обзором исторической статистики и на основе исторических статсборников [2].
Ссылки:
[1] https://seriestoriche.istat.it
[2] https://seriestoriche.istat.it/index.php?id=8
#statistics #digitalpreservation #archives #data #timeseries
Все данные в формате Excel файлов которые были созданы на основе статистических изданий 20го века с обзором исторической статистики и на основе исторических статсборников [2].
Ссылки:
[1] https://seriestoriche.istat.it
[2] https://seriestoriche.istat.it/index.php?id=8
#statistics #digitalpreservation #archives #data #timeseries
В рубрике как это устроено у них статистический портал Банка Франции Webstat [1]. Содержит более 40 тысяч временных рядов из 38 баз данных/наборов данных.
Важная особенность в том что показатели эти не только изнутри самого банка, но и из Евростата, Министерства экономики Франции, Банка Англии, Института статистики Франции и других внутренних и международных источников.
Сами временные ряды доступны в форматах CSV и XLSX, а также через открытое API [2]
Ссылки:
[1] https://webstat.banque-france.fr/en/
[2] https://webstat.banque-france.fr/en/pages/guide-migration-api/
#opendata #banking #france #statistics
Важная особенность в том что показатели эти не только изнутри самого банка, но и из Евростата, Министерства экономики Франции, Банка Англии, Института статистики Франции и других внутренних и международных источников.
Сами временные ряды доступны в форматах CSV и XLSX, а также через открытое API [2]
Ссылки:
[1] https://webstat.banque-france.fr/en/
[2] https://webstat.banque-france.fr/en/pages/guide-migration-api/
#opendata #banking #france #statistics
В рубрике как это устроено у них французский проект по мониторингу всего кода созданного органами власти Франции, государственными научными учреждениями и в рамках госфинансирования (гранты) из французского бюджета data.code.gouv.fr [1].
Охватывает 82 источника, более 32 тысяч репозиториев, более 3 тысяч владельцев репозиториев
Построен на базе открытого кода ecosyste.ms проекта по мониторингу пакетов и репозиториев открытого кода.
Позволяет оценить масштабы государственного открытого кода во Франции и, при желании, выявить наиболее живые и востребованные проекты
Ссылки:
[1] https://data.code.gouv.fr/
[2] https://ecosyste.ms/
#opensource #france #opendata #sourcecode
Охватывает 82 источника, более 32 тысяч репозиториев, более 3 тысяч владельцев репозиториев
Построен на базе открытого кода ecosyste.ms проекта по мониторингу пакетов и репозиториев открытого кода.
Позволяет оценить масштабы государственного открытого кода во Франции и, при желании, выявить наиболее живые и востребованные проекты
Ссылки:
[1] https://data.code.gouv.fr/
[2] https://ecosyste.ms/
#opensource #france #opendata #sourcecode