Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Успеть за 60 минут: Портал открытых данных открыли на год позже и снова закрыли спустя час работы
Возобновление работы Портала открытых данных (data.gov.ru) было бы отличной новостью для возобновления постов в моем телеграм-канале, но, пока я готовила пост, Портал снова закрыли. Напомню, что исполнение контракта подрядчиком (дубликат юрлица которого Минэк несколько лет назад отправил в РНП) было просрочено на год. Но кое-что, все-таки, успела заметить:
- В поиске работают только некоторые фильтры, поиск по организациям-поставщикам данных не работает, фильтрация по уровням власти отсутствует - после многочисленных попыток мне не удалось отфильтровать данные Минфина России или найти данные по федеральному бюджету.
- Данные устаревшие. «Свежих данных» годичной-двухлетней давности практически нет, в основном мелькают данные 2019-2022 гг.
- Заметное количество наборов датированы 1970 годом, то есть на каком-то этапе импорт дал сбой, но разработчики это не отследили и не исправили.
- Выгрузка реестра данных не работает - выдает ошибку таймаута.
- Заявленный бот-помощник также не выдает никакой реакции даже на предлагаемые сайтом запросы.
- Контакты техподдержки отсутствуют: в качестве почты указан «левый» адрес [email protected], телефонов нет.
- Из ссылок на соцсети успела перейти только в телеграм-канал и комментарии к нему: хотела выйти на связь с разработчиками, но вместо этого узнала об Индонезийском онлайн-казино.
- Попробовала авторизоваться через Госуслуги - разрешение Портал ОД успешно получил и выдал новую ошибку. Залогиниться так и не удалось.
- Отдельное внимание заслуживает раздел Аналитика: по открытым данным собирают два параметра - количество наборов данных и количество лайков (лайки - это же самое главное для аналитика).
- Региональная статистика тоже в духе минималиста - количество регионов и попытка нарисовать график с количеством организаций-поставщиков данных в каждом регионе (спойлер: не получилось: влезли только 10 регионов с одинаковым количеством организаций).
Как и написано в заголовке, спустя очень короткое время (полчаса-час) Портал перестал открываться - пользователи теперь видят плашку о «этапе проведения аттестационных мероприятий в соответствии с Приказом ФСТЭК России». Но после появления этой плашки возникает ряд вопросов:
- Что делал Минэк весь прошлый год, если на февраль 2024 года был запланирован этап тестирования с целью определить дату запуска?
- Как Минэк принял Портал, если неработающих элементов в нем больше, чем работающих?
- Почему Портал, не прошедший аттестационные мероприятия, получает мои персональные данные из Госуслуг?
- Как, кем и в какие сроки проводятся аттестационные мероприятия, если в контракт на разработку Портала они не входили, а отдельного контракта на них нет (по крайней мере в открытом доступе)? Об этом аспекте подробно пишет автор канала «Координация профанации» (https://www.group-telegram.com/CynExp/5845)
Так много вопросов и совсем нет ответов.
Возобновление работы Портала открытых данных (data.gov.ru) было бы отличной новостью для возобновления постов в моем телеграм-канале, но, пока я готовила пост, Портал снова закрыли. Напомню, что исполнение контракта подрядчиком (дубликат юрлица которого Минэк несколько лет назад отправил в РНП) было просрочено на год. Но кое-что, все-таки, успела заметить:
- В поиске работают только некоторые фильтры, поиск по организациям-поставщикам данных не работает, фильтрация по уровням власти отсутствует - после многочисленных попыток мне не удалось отфильтровать данные Минфина России или найти данные по федеральному бюджету.
- Данные устаревшие. «Свежих данных» годичной-двухлетней давности практически нет, в основном мелькают данные 2019-2022 гг.
- Заметное количество наборов датированы 1970 годом, то есть на каком-то этапе импорт дал сбой, но разработчики это не отследили и не исправили.
- Выгрузка реестра данных не работает - выдает ошибку таймаута.
- Заявленный бот-помощник также не выдает никакой реакции даже на предлагаемые сайтом запросы.
- Контакты техподдержки отсутствуют: в качестве почты указан «левый» адрес [email protected], телефонов нет.
- Из ссылок на соцсети успела перейти только в телеграм-канал и комментарии к нему: хотела выйти на связь с разработчиками, но вместо этого узнала об Индонезийском онлайн-казино.
- Попробовала авторизоваться через Госуслуги - разрешение Портал ОД успешно получил и выдал новую ошибку. Залогиниться так и не удалось.
- Отдельное внимание заслуживает раздел Аналитика: по открытым данным собирают два параметра - количество наборов данных и количество лайков (лайки - это же самое главное для аналитика).
- Региональная статистика тоже в духе минималиста - количество регионов и попытка нарисовать график с количеством организаций-поставщиков данных в каждом регионе (спойлер: не получилось: влезли только 10 регионов с одинаковым количеством организаций).
Как и написано в заголовке, спустя очень короткое время (полчаса-час) Портал перестал открываться - пользователи теперь видят плашку о «этапе проведения аттестационных мероприятий в соответствии с Приказом ФСТЭК России». Но после появления этой плашки возникает ряд вопросов:
- Что делал Минэк весь прошлый год, если на февраль 2024 года был запланирован этап тестирования с целью определить дату запуска?
- Как Минэк принял Портал, если неработающих элементов в нем больше, чем работающих?
- Почему Портал, не прошедший аттестационные мероприятия, получает мои персональные данные из Госуслуг?
- Как, кем и в какие сроки проводятся аттестационные мероприятия, если в контракт на разработку Портала они не входили, а отдельного контракта на них нет (по крайней мере в открытом доступе)? Об этом аспекте подробно пишет автор канала «Координация профанации» (https://www.group-telegram.com/CynExp/5845)
Так много вопросов и совсем нет ответов.
Про плохие примеры публикации данных, один из давних проектов по открытым данным это платформа Open Data for Africa запущенная в 2011 году [1] Африканским Банком Развития в партнёрстве с компанией Knoema.
С той поры прошло уже 13 лет, практически для каждой африканской страны теперь есть свои порталы на базе этой платформы, например, Либерия [2], Камерун [3], Зимбабве [4] и так далее, их довольно много.
С формальной точки зрения это дата порталы, с каталогами данных, возможностью экспорта данных в CSV, Excel, формат Tableau, с API и так далее. Вроде бы неплохо, но, при этом со множеством недостатков:
1. Объективно это не порталы открытых данных, а порталы статистики, поскольку все опубликованные там данные - это разного рода индикаторы, требующие специальной подготовки перед загрузкой.
2. Поскольку данные там в виде индикаторов, де-факто, их объём очень невелик. По некоторым странам максимум килобайт 10 можно наскрести. Причем слишком часто данные не обновлялись более 10 лет.
3. Многие данные происходят не из стран для которых порталы созданы, а из международных банков данных вроде FAO.
4. У порталов нет удобной выгрузки массовой данных, нужно пройти множество форм чтобы делать экспорт. API плохо документировано, без централизованного описания, нет машиночитаемых каталогов данных и тд.
5. Knoema уже какое-то время не существует как компания, в 2020 году их купили Eldridge [5], а ссылки на их сайте давно неработают, так что и судьбы их платформы мне лично неясна. Больше похоже что её нет, чем то что она есть.
В результате у десятков африканских стран сейчас есть "порталы открытых данных", но качество их сомнительное, данных мало и вся статистика непонятной актуальности, часто редко обновляемые.
При этом почти все африканские страны участвующие в OGP (Open Government Partnership) в своих отчетах пишут что вот мол у нас есть портал открытых данных, посмотрите какой он продвинутый.
Все эти порталы всё ещё отсутствуют в реестре каталогов данных Dateno [6], потому что меня не покидает ощущение что качество их сомнительно. Но, с другой стороны, есть немало примеров куда как хуже, так что может и стоит их добавить.
Ссылки:
[1] https://www.afdb.org/en/news-and-events/afdb-promotes-statistical-development-with-the-launch-of-the-open-data-for-africa-platform-8739
[2] https://liberia.opendataforafrica.org
[3] https://cameroon.opendataforafrica.org
[4] https://zimbabwe.opendataforafrica.org
[5] https://www.businesswire.com/news/home/20201221005152/en/Knoema-Announces-Acquisition-by-Eldridge-and-Partnership-with-Snowflake
[6] https://dateno.io/registry
#opendata #africa #baddata #datacatalogs #data
С той поры прошло уже 13 лет, практически для каждой африканской страны теперь есть свои порталы на базе этой платформы, например, Либерия [2], Камерун [3], Зимбабве [4] и так далее, их довольно много.
С формальной точки зрения это дата порталы, с каталогами данных, возможностью экспорта данных в CSV, Excel, формат Tableau, с API и так далее. Вроде бы неплохо, но, при этом со множеством недостатков:
1. Объективно это не порталы открытых данных, а порталы статистики, поскольку все опубликованные там данные - это разного рода индикаторы, требующие специальной подготовки перед загрузкой.
2. Поскольку данные там в виде индикаторов, де-факто, их объём очень невелик. По некоторым странам максимум килобайт 10 можно наскрести. Причем слишком часто данные не обновлялись более 10 лет.
3. Многие данные происходят не из стран для которых порталы созданы, а из международных банков данных вроде FAO.
4. У порталов нет удобной выгрузки массовой данных, нужно пройти множество форм чтобы делать экспорт. API плохо документировано, без централизованного описания, нет машиночитаемых каталогов данных и тд.
5. Knoema уже какое-то время не существует как компания, в 2020 году их купили Eldridge [5], а ссылки на их сайте давно неработают, так что и судьбы их платформы мне лично неясна. Больше похоже что её нет, чем то что она есть.
В результате у десятков африканских стран сейчас есть "порталы открытых данных", но качество их сомнительное, данных мало и вся статистика непонятной актуальности, часто редко обновляемые.
При этом почти все африканские страны участвующие в OGP (Open Government Partnership) в своих отчетах пишут что вот мол у нас есть портал открытых данных, посмотрите какой он продвинутый.
Все эти порталы всё ещё отсутствуют в реестре каталогов данных Dateno [6], потому что меня не покидает ощущение что качество их сомнительно. Но, с другой стороны, есть немало примеров куда как хуже, так что может и стоит их добавить.
Ссылки:
[1] https://www.afdb.org/en/news-and-events/afdb-promotes-statistical-development-with-the-launch-of-the-open-data-for-africa-platform-8739
[2] https://liberia.opendataforafrica.org
[3] https://cameroon.opendataforafrica.org
[4] https://zimbabwe.opendataforafrica.org
[5] https://www.businesswire.com/news/home/20201221005152/en/Knoema-Announces-Acquisition-by-Eldridge-and-Partnership-with-Snowflake
[6] https://dateno.io/registry
#opendata #africa #baddata #datacatalogs #data
Отличная лекция A Short Summary of the Last Decades of Data Management [1] от Hannes Mühleisen. Она была на GOTO 2024, а я её увидел только сегодня, большая досада, конечно.
Hannes сооснователь DuckDB и большой специалист в проектировании СУБД рассказывает про последние десятилетия эволюции баз данных.
У него, конечно, своё видение вселенной, но он из тех людей к чьему мнению можно прислушаться.
Выводы у него получаются такие:
- таблицы вечны (чтобы там не придумывали с новыми СУБД, всё всё равно сводится к таблицам)
- NoSQL были плохой идеей. В частности, MongoDB и тут очень хочется с ним поспорить, но, не то чтобы в его словах нет резона. Хотя MongoDB до сих пор очень популярная СУБД.
- Реляционные системы съедают почти всё. В общем то мир по прежнему существует как совокупность систем отношений между объектами, почти всё сводится к ним.
- Большие данные мертвы. Это уже новый/старый тезис, его повторяют часто. И часто он сводится к тому что "большие данные это то что ты не можешь обработать на десктопе". Но сейчас есть инструменты позволяющие обрабатывать на десктопах десятки терабайт с терпимой скоростью.
- DuckDB. Ну тут не без саморекламы у него конечно, но DuckDB реально крутой продукт. Я лично рекомендую всем кто только начинает работать с данными начинать с него.
Повторюсь что лекция замечательная, студентам изучающим базы данных будет очень полезна. Для остальных скорее как расширение кругозора и понимания того как устроен мир эволюции СУБД.
Ссылки:
[1] https://www.youtube.com/watch?v=-wCzn9gKoUk
#data #lectures #databases #rdbms
Hannes сооснователь DuckDB и большой специалист в проектировании СУБД рассказывает про последние десятилетия эволюции баз данных.
У него, конечно, своё видение вселенной, но он из тех людей к чьему мнению можно прислушаться.
Выводы у него получаются такие:
- таблицы вечны (чтобы там не придумывали с новыми СУБД, всё всё равно сводится к таблицам)
- NoSQL были плохой идеей. В частности, MongoDB и тут очень хочется с ним поспорить, но, не то чтобы в его словах нет резона. Хотя MongoDB до сих пор очень популярная СУБД.
- Реляционные системы съедают почти всё. В общем то мир по прежнему существует как совокупность систем отношений между объектами, почти всё сводится к ним.
- Большие данные мертвы. Это уже новый/старый тезис, его повторяют часто. И часто он сводится к тому что "большие данные это то что ты не можешь обработать на десктопе". Но сейчас есть инструменты позволяющие обрабатывать на десктопах десятки терабайт с терпимой скоростью.
- DuckDB. Ну тут не без саморекламы у него конечно, но DuckDB реально крутой продукт. Я лично рекомендую всем кто только начинает работать с данными начинать с него.
Повторюсь что лекция замечательная, студентам изучающим базы данных будет очень полезна. Для остальных скорее как расширение кругозора и понимания того как устроен мир эволюции СУБД.
Ссылки:
[1] https://www.youtube.com/watch?v=-wCzn9gKoUk
#data #lectures #databases #rdbms
В блоге Anna's Archive конкурс на визуализацию датасета ISBN'ов [1] (уникальных кодов книг). Что интересно, поскольку во первых там открытые наборы данных, а во вторых призовой фонд в $10000 в виде криптовалюты Monero.
Для тех кто не знает, Anna's Archive -это крупнейшая по настоящему открытая библиотека включающая материалы из LibGen и Sci-Hub. Она много где заблокирована и неизвестно кто её реально ведёт, также как и то почему она названа Anna.
В их базе более 1 петабайта, а данные можно скачать в виде датасетов очень большого объёма [2]. Для этого конкурса скачивать сотни терабайт не нужно, там датасеты поменьше, но это одна из интересных и полезных задач.
Ссылки:
[1] https://annas-archive.org/blog/all-isbns.html
[2] https://annas-archive.org/datasets
#opendata #contests #datasets
Для тех кто не знает, Anna's Archive -это крупнейшая по настоящему открытая библиотека включающая материалы из LibGen и Sci-Hub. Она много где заблокирована и неизвестно кто её реально ведёт, также как и то почему она названа Anna.
В их базе более 1 петабайта, а данные можно скачать в виде датасетов очень большого объёма [2]. Для этого конкурса скачивать сотни терабайт не нужно, там датасеты поменьше, но это одна из интересных и полезных задач.
Ссылки:
[1] https://annas-archive.org/blog/all-isbns.html
[2] https://annas-archive.org/datasets
#opendata #contests #datasets
annas-archive.org
Visualizing All ISBNs — $10k by 2025-01-31
This picture represents the largest fully open “list of books” ever assembled in the history of humanity.
В ближайшие дни я в Москве и довольно неожиданно, а на самом деле давно были планы, читаю лекцию про работу с большими исследовательскими датасетами и об использовании DuckDB и Parquet в этих целях. Будет и в части теории и рассказа про современный инструменты и в части демонстрации на живых данных. Для тех исследователей кто хотя бы немного владеет Python, R и/ли SQL всё будет довольно понятно.
А вот и сам анонс;)
—
Приглашаем поучаствовать в семинаре на тему особенностей работы с современными форматами больших данных.
Поговорим о ключевых преимуществах формата
Семинар может быть интересен тем, кто занимается обработкой и анализом больших данных, а также тем, кто ищет эффективные и производительные решения для работы с массивами данных в современных аналитических экосистемах.
Дата проведения: 21 января 2025 г. (вторник), с 16:30 до 18:00
Формат: гибридный
Место проведения: Институт востоковедения РАН (г. Москва, ул. Рождественка, 12), аудитория 222
Регистрация: https://ivran.ru/registraciya-na-seminar
#opendata #opensource #lectures #teaching
А вот и сам анонс;)
—
Приглашаем поучаствовать в семинаре на тему особенностей работы с современными форматами больших данных.
Поговорим о ключевых преимуществах формата
Parquet
для оптимизации хранения и обработки данных, а также о возможностях аналитической СУБД DuckDB
.Семинар может быть интересен тем, кто занимается обработкой и анализом больших данных, а также тем, кто ищет эффективные и производительные решения для работы с массивами данных в современных аналитических экосистемах.
Дата проведения: 21 января 2025 г. (вторник), с 16:30 до 18:00
Формат: гибридный
Место проведения: Институт востоковедения РАН (г. Москва, ул. Рождественка, 12), аудитория 222
Регистрация: https://ivran.ru/registraciya-na-seminar
#opendata #opensource #lectures #teaching
Андрей Анненков на D-Russia хорошо пишет [1] про ФГИС для удовлетворения... культурно-языковых потребностей. Почитайте, там много разумного и всё по делу. Лично я стараюсь всё меньше комментировать российскую внутреннюю автоматизацию без контекста того что происходит в других странах.
Так что я добавлю следующее:
1. В мире много инициатив по сохранению лингистических и культурных-языковых материалов, включая онлайн словари и не исключая сервисы проверки языка на простоту, понятность и так далее.
2. Из наиболее заметных я бы выделил PlainLanguage.gov госпроект в США с инструкциями и материалами о том как чиновникам писать тексты просто, ясно, понятно и грамотно. Ничего сверхвеликого в нём нёт, но всё разумно.
3. Другой пример - это европейский проект CLARIN, вернее множество проектов с более чем 900 тысячами языковых ресурсов для работы профессиональных лингвистов. Их аудитория не массовая, но профессиональная, зато вовлеченная в создание текстовых ресурсов для обучения ИИ, к примеру.
4. Практически всё что создаётся в рамках этой ФГИС можно заменить на создание наборов данных. Там нет ничего, я ещё раз подчеркну, ничего ценного кроме этого. Если бы датасеты словарей были доступны и обновлялись бы не раз в 5 лет, а раз в месяц, то поверьте нашлись бы команды которые бы интегрировали эти данные и сделали бы удобные интерфейсы в некоммерческих и коммерческих продуктах.
5. Давайте опишу альтернативный сценарий. Выложить данные датасетамина портале data.gov.ru, на сайте правительства, да где угодно и через Фонд Президентских грантов раздать гранты для исследователей.
6. В целом все что там описано модулями - это не модули, а открытые исследовательские или открытые образовательные ресурсы. Вернее это то как это должно быть
7. Не могу не напомнить о том о чём я писал 2.5 года назад, о новой языковой экономике в Испании [2]. Если кратко, то испанское правительство вкладывает реально огромные деньги в открытые языковые ресурсы, датасеты, модели, исследования. Примеры результатов? Языковые корпусы выложенные в Hugging Face
8. И, немаловажно, что в России языковые ресурсы созданные за деньги государства все являются закрытыми. Национальный корпус русского языка [3] вынесен в отдельное НКО, хотя и разрабатывался преимущественно за бюджетные средства, на нём нет открытых данных, нет открытого API, нет свободного использования, а если он уже окончательно стал коммерческим, то нет инвестиций государства в создание открытых альтернатив.
Даже не знаю что добавить, выводы можно сделать самостоятельно.
Ссылки:
[1] https://d-russia.ru/fgis-dlja-udovletvorenija-kulturno-jazykovyh-potrebnostej.html
[2] https://www.group-telegram.com/begtin.com/4157
[3] https://ruscorpora.ru
#opendata #russia #spending #language #russianlanguage
Так что я добавлю следующее:
1. В мире много инициатив по сохранению лингистических и культурных-языковых материалов, включая онлайн словари и не исключая сервисы проверки языка на простоту, понятность и так далее.
2. Из наиболее заметных я бы выделил PlainLanguage.gov госпроект в США с инструкциями и материалами о том как чиновникам писать тексты просто, ясно, понятно и грамотно. Ничего сверхвеликого в нём нёт, но всё разумно.
3. Другой пример - это европейский проект CLARIN, вернее множество проектов с более чем 900 тысячами языковых ресурсов для работы профессиональных лингвистов. Их аудитория не массовая, но профессиональная, зато вовлеченная в создание текстовых ресурсов для обучения ИИ, к примеру.
4. Практически всё что создаётся в рамках этой ФГИС можно заменить на создание наборов данных. Там нет ничего, я ещё раз подчеркну, ничего ценного кроме этого. Если бы датасеты словарей были доступны и обновлялись бы не раз в 5 лет, а раз в месяц, то поверьте нашлись бы команды которые бы интегрировали эти данные и сделали бы удобные интерфейсы в некоммерческих и коммерческих продуктах.
5. Давайте опишу альтернативный сценарий. Выложить данные датасетами
6. В целом все что там описано модулями - это не модули, а открытые исследовательские или открытые образовательные ресурсы. Вернее это то как это должно быть
7. Не могу не напомнить о том о чём я писал 2.5 года назад, о новой языковой экономике в Испании [2]. Если кратко, то испанское правительство вкладывает реально огромные деньги в открытые языковые ресурсы, датасеты, модели, исследования. Примеры результатов? Языковые корпусы выложенные в Hugging Face
8. И, немаловажно, что в России языковые ресурсы созданные за деньги государства все являются закрытыми. Национальный корпус русского языка [3] вынесен в отдельное НКО, хотя и разрабатывался преимущественно за бюджетные средства, на нём нет открытых данных, нет открытого API, нет свободного использования, а если он уже окончательно стал коммерческим, то нет инвестиций государства в создание открытых альтернатив.
Даже не знаю что добавить, выводы можно сделать самостоятельно.
Ссылки:
[1] https://d-russia.ru/fgis-dlja-udovletvorenija-kulturno-jazykovyh-potrebnostej.html
[2] https://www.group-telegram.com/begtin.com/4157
[3] https://ruscorpora.ru
#opendata #russia #spending #language #russianlanguage
И, чтобы два раза не вставать, 22 января буду выступать с докладом про Дата инженерию в цифровых гуманитарных науках. На этот раз онлайн, но темы будут пересекаться, хотя и не полностью. В лекции ИВТ РАН я буду рассказывать про конкретные тренды и инструменты для исследователей, без привязке к научным дисциплинам. А в этом докладе буду говорить про пересечение дата инженерии и цифровой гуманитаристики, где именно и какие инструменты для каких задач применимы.
Forwarded from Гуманитарии в цифре
«Цифровая среда»: Иван Бегтин расскажет об инструментах для работы с данными в гуманитарных науках
22 января состоится первое в этом году заседание «Цифровой среды» – научно-методического семинара Института цифровых гуманитарных исследований (DHRI) СФУ о Digital Humanities.
Один из самых интересных практиков Open Data, директор АНО «Информационная культура», создатель международного проекта Dateno и автор популярного телеграм-канала Иван Бегтин выступит с докладом «Дата-инженерия в цифровой гуманитаристике».
🔜 Присоединяйтесь к онлайн-семинару ровно через неделю.
Дата: 22 января
Начало: 14.00 (мск)/ 18.00 (крск)
🔗 Зарегистрироваться и добавить в календарь: здесь
#цифроваясреда #смотреть #слушать #данные #opendata
22 января состоится первое в этом году заседание «Цифровой среды» – научно-методического семинара Института цифровых гуманитарных исследований (DHRI) СФУ о Digital Humanities.
Один из самых интересных практиков Open Data, директор АНО «Информационная культура», создатель международного проекта Dateno и автор популярного телеграм-канала Иван Бегтин выступит с докладом «Дата-инженерия в цифровой гуманитаристике».
Дата: 22 января
Начало: 14.00 (мск)/ 18.00 (крск)
🔗 Зарегистрироваться и добавить в календарь: здесь
#цифроваясреда #смотреть #слушать #данные #opendata
Please open Telegram to view this post
VIEW IN TELEGRAM
Подборка полезных ссылок инструментов с открытым кодом:
- pyper [1] библиотека для Python для параллельной обработки данных, упрощает работу с потоками, делает её значительно проще.
- Gemini-search [2] альтернатива для Perplexity на базе LLM модели Gemini от Google. Плюс: хостится локально. Минус: за обращения к API Гугла надо платить. Мне не удалось её заставить работать, но демо выглядит интересно, надеюсь скоро будет работоспособнее
- Automatisch [3] open source аналог Zapier, используется для интеграции и автоматизации разных онлайн сервисов типа Twitter, Spotify, Google Docs и др. Сервисов таких много, но тут открытый код.
- crawl4ai [4] веб краулер с построением конвееров для обработки страниц для LLM и не только. Мне вот есть куда прикрутить краулер, может быть даже именно этот. А вообще удивительно насколько стремительно становятся популярными именно AI-powered инструменты. К примеру, похожий краулер Browsertrix для веб архивации имеет всего 223 лайка. А у crawl4ai сразу 25 тысяч лайков. Разница, реально, на 2 порядка и интенсивность разработки аналогично.
- PDFMathTranslate [5] open source инструмент перевода научных статей на другие языки, с сохранением всех формул, изображений и тд. Поддерживает все актуальные разговорные языки используемые в науке: английский, китайский, французский, немецкий, русский, испанский и тд. Существует в виде онлайн сервиса с ограничением в менее чем 5MB [6] или можно скачать и развернуть у себя
Ссылки:
[1] https://github.com/pyper-dev/pyper
[2] https://github.com/ammaarreshi/Gemini-Search
[3] https://github.com/automatisch/automatisch
[4] https://github.com/unclecode/crawl4ai
[5] https://github.com/Byaidu/PDFMathTranslate
[6] https://pdf2zh.com/
#opensource #datatools #ai #crawlers #search
- pyper [1] библиотека для Python для параллельной обработки данных, упрощает работу с потоками, делает её значительно проще.
- Gemini-search [2] альтернатива для Perplexity на базе LLM модели Gemini от Google. Плюс: хостится локально. Минус: за обращения к API Гугла надо платить. Мне не удалось её заставить работать, но демо выглядит интересно, надеюсь скоро будет работоспособнее
- Automatisch [3] open source аналог Zapier, используется для интеграции и автоматизации разных онлайн сервисов типа Twitter, Spotify, Google Docs и др. Сервисов таких много, но тут открытый код.
- crawl4ai [4] веб краулер с построением конвееров для обработки страниц для LLM и не только. Мне вот есть куда прикрутить краулер, может быть даже именно этот. А вообще удивительно насколько стремительно становятся популярными именно AI-powered инструменты. К примеру, похожий краулер Browsertrix для веб архивации имеет всего 223 лайка. А у crawl4ai сразу 25 тысяч лайков. Разница, реально, на 2 порядка и интенсивность разработки аналогично.
- PDFMathTranslate [5] open source инструмент перевода научных статей на другие языки, с сохранением всех формул, изображений и тд. Поддерживает все актуальные разговорные языки используемые в науке: английский, китайский, французский, немецкий, русский, испанский и тд. Существует в виде онлайн сервиса с ограничением в менее чем 5MB [6] или можно скачать и развернуть у себя
Ссылки:
[1] https://github.com/pyper-dev/pyper
[2] https://github.com/ammaarreshi/Gemini-Search
[3] https://github.com/automatisch/automatisch
[4] https://github.com/unclecode/crawl4ai
[5] https://github.com/Byaidu/PDFMathTranslate
[6] https://pdf2zh.com/
#opensource #datatools #ai #crawlers #search
Я периодически рассказываю о внутренностях не только Dateno, но и реестра каталогов данных на которых он основан. Я начинал его делать ещё в до самого поисковика и изначально он был разделен на две части.
1-я - это чистовые дата каталоги, по которым метаданные, в основном, собранные вручную. Они были в репозитории в каталоге entries и каждая запись выглядела как YAML файл по определённой структуре. У них был префикс 'cdi' для идентификаторов.
2-я - это временные записи, которые не проходили ручную верификацию и которых было около половины всех каталогов. По ним не были заполнены большая часть сведений которые часто из реестра удалялись. Эти записи были родом из системы поиска каталогов данных которая иногда находила те из них которые уже давно удалены. Они существовали с префиксом "temp" и были в каталоге scheduled.
В итоге оказалось что при обновлении метаданных каждый раз была необходимость удалять старый префикс и назначать новый, а также в том что разделение неэффективно. Приходилось дублировать все операции по обогащению данных на два каталога.
Поэтому одно из важных актуальных изменений реестра в том чтобы свести их в единую модель. И сейчас в последней версии реестра на Github'е [1] лежит датасет с переназначенными идентификаторами и теперь можно приступать к повышению качества каталога автоматизировав присвоение тегов, тем и описаний каждому из них. Это, кстати, то для чего можно применить LLM почти наверняка.
Но это то что является disruptive change поскольку даже временные каталоги данных индексировались в Dateno и их переиндексирование и обновление поиска поменяет некоторые ссылки и в реестре [2] и для датасетов в будущем. Поэтому на самом поиске это отразится не раньше чем через какое-то время, не в ближайшем обновлении.
Реестр - это важная часть качества поиска Dateno поскольку характеристики каталога данных транслируются на датасеты. Если, к примеру, источник данных посвящён здравоохранению то и его параметры переносятся на наборы данных в нём проиндексированные. Это позволяет искать даже те датасеты которые которые своих метаданных имеют мало или почти не содержат. К примеру, почти все датасеты на серверах ArcGIS и Geoserver, но вот их обогащение почти невозможно проводить автоматически, потому на них нет описания содержания этих данных. Геокаталоги, не все, но многие, автоматически документируются довольно плохо. Их наличие делает Dateno одним из наиболее полных поисковиков по геоданным, но искать их сложно если только эти данные не описаны где-то ещё, например, в каталогах Geonetwork со ссылками на георесурсы.
Ссылки:
[1] https://github.com/commondataio/dataportals-registry/
[2] https://dateno.io/registry
#dateno #opendata #datasets
1-я - это чистовые дата каталоги, по которым метаданные, в основном, собранные вручную. Они были в репозитории в каталоге entries и каждая запись выглядела как YAML файл по определённой структуре. У них был префикс 'cdi' для идентификаторов.
2-я - это временные записи, которые не проходили ручную верификацию и которых было около половины всех каталогов. По ним не были заполнены большая часть сведений которые часто из реестра удалялись. Эти записи были родом из системы поиска каталогов данных которая иногда находила те из них которые уже давно удалены. Они существовали с префиксом "temp" и были в каталоге scheduled.
В итоге оказалось что при обновлении метаданных каждый раз была необходимость удалять старый префикс и назначать новый, а также в том что разделение неэффективно. Приходилось дублировать все операции по обогащению данных на два каталога.
Поэтому одно из важных актуальных изменений реестра в том чтобы свести их в единую модель. И сейчас в последней версии реестра на Github'е [1] лежит датасет с переназначенными идентификаторами и теперь можно приступать к повышению качества каталога автоматизировав присвоение тегов, тем и описаний каждому из них. Это, кстати, то для чего можно применить LLM почти наверняка.
Но это то что является disruptive change поскольку даже временные каталоги данных индексировались в Dateno и их переиндексирование и обновление поиска поменяет некоторые ссылки и в реестре [2] и для датасетов в будущем. Поэтому на самом поиске это отразится не раньше чем через какое-то время, не в ближайшем обновлении.
Реестр - это важная часть качества поиска Dateno поскольку характеристики каталога данных транслируются на датасеты. Если, к примеру, источник данных посвящён здравоохранению то и его параметры переносятся на наборы данных в нём проиндексированные. Это позволяет искать даже те датасеты которые которые своих метаданных имеют мало или почти не содержат. К примеру, почти все датасеты на серверах ArcGIS и Geoserver, но вот их обогащение почти невозможно проводить автоматически, потому на них нет описания содержания этих данных. Геокаталоги, не все, но многие, автоматически документируются довольно плохо. Их наличие делает Dateno одним из наиболее полных поисковиков по геоданным, но искать их сложно если только эти данные не описаны где-то ещё, например, в каталогах Geonetwork со ссылками на георесурсы.
Ссылки:
[1] https://github.com/commondataio/dataportals-registry/
[2] https://dateno.io/registry
#dateno #opendata #datasets
GitHub
GitHub - commondataio/dataportals-registry: Registry of data portals, catalogs, data repositories including data catalogs dataset…
Registry of data portals, catalogs, data repositories including data catalogs dataset and catalog description standard - commondataio/dataportals-registry
В рубрике закрытых в России данных открытые данные Государственного каталога музейного фонда [1] на портале открытых данных Минкультуры РФ не обновлялись с сентября 2023 года, почти полтора года.
В виде сайта эти данные доступны на goskatalog.ru [2] и, похоже, там эти данные обновляются поскольку количественно объектов там больше чем на портале открытых данных в этом датасете.
Это, конечно, печальное известие потому как с точки зрения организации доступа к данным именно этот ресурс Минкультуры был сделан лучшем чем большая часть порталов открытых данных в России. Печально если он окончательно помирает, впрочем новости там не публикуются с 2021 года, датасеты потихоньку исчезают, а теперь и не обновляются.
Ссылки:
[1] https://opendata.mkrf.ru/opendata/7705851331-museum-exhibits
[2] https://goskatalog.ru
#opendata #culture #russia #closeddata
В виде сайта эти данные доступны на goskatalog.ru [2] и, похоже, там эти данные обновляются поскольку количественно объектов там больше чем на портале открытых данных в этом датасете.
Это, конечно, печальное известие потому как с точки зрения организации доступа к данным именно этот ресурс Минкультуры был сделан лучшем чем большая часть порталов открытых данных в России. Печально если он окончательно помирает, впрочем новости там не публикуются с 2021 года, датасеты потихоньку исчезают, а теперь и не обновляются.
Ссылки:
[1] https://opendata.mkrf.ru/opendata/7705851331-museum-exhibits
[2] https://goskatalog.ru
#opendata #culture #russia #closeddata
Золотая эпоха баз данных
Я несколько раз уже слышал в выступлениях разработчиков систем управления базами данных (DBMS) о том что сейчас золотая эпоха их создания, и не только самих баз данных, но и инструментов, фреймворков и новых продуктов для работы с данными, всё что связано с дата инженерией.
И да, после размышлений я прихожу к тому же выводу. Число новых DBMS, как совершенно новых, так и использующих существующие движки в расширениями и оптимизацией, растёт стремительно.
Можно посмотреть, например, на базу Database of Databases чтобы увидеть сколько новых движков появляется ежегодно. Или можно посмотреть на аналитические DBMS в бенчмарке Clickbench. Там десятки конкурирующих инструментов и платформ и это ещё не все движки охвачены.
Аналогично с библиотеками с библиотеками работы с датафреймами. Их уже больше десятка в среде дата аналитиков работа с pandas это скорее унаследованный код чем быстрый код. Есть бенчмарки Database-like ops покрывает 13 библиотек (не самый актуальный, 4 летней давности) и полугодовой давности DataFrames at Scale Comparison с покрытием 4-х библиотек. И это только те бенчмарки которые нейтральные, а есть множество которые делают сами разработчики. Чаще не нейтрально, а подгоняя под особенности своей библиотеки.
Похожая ситуация с ETL/ELT инструментами, BI/OLAP/визуализацией данных, инструментами извлечения данных и так далее.
Это всё формирует нереальную конкуренцию, а вместе с ней усилия команд по непрерывному улучшению их продуктов. К примеру, согласно ClickHouse Versions Benchmark производительность ClickHouse с ранних версий до текущих выросла почти вдвое. А скорость DuckDB выросла от 3 до 10 раз, а и возможность работы с данными большего размера в 10 раз на том же оборудовании.
Всё это о том что технологии работы с данными развиваются очень быстро. Гораздо быстрее чем в предыдущие десятилетия. В них вкладывается и больше инвестиций, и в них больше потребности.
Всё это происходит параллельно с продолжающимся снижением стоимости терабайта, в облаке, и в приобретении дисков для личного хранения.
В итоге расшифровка фразы большие данные мертвы сводится к тому что стоимость работы с данными относительно большого объёма резко снижается, а обработка десятков терабайт структурированных данных на десктопе перестала быть невозможной.
#databases #rdbms #datatools #thoughts
Я несколько раз уже слышал в выступлениях разработчиков систем управления базами данных (DBMS) о том что сейчас золотая эпоха их создания, и не только самих баз данных, но и инструментов, фреймворков и новых продуктов для работы с данными, всё что связано с дата инженерией.
И да, после размышлений я прихожу к тому же выводу. Число новых DBMS, как совершенно новых, так и использующих существующие движки в расширениями и оптимизацией, растёт стремительно.
Можно посмотреть, например, на базу Database of Databases чтобы увидеть сколько новых движков появляется ежегодно. Или можно посмотреть на аналитические DBMS в бенчмарке Clickbench. Там десятки конкурирующих инструментов и платформ и это ещё не все движки охвачены.
Аналогично с библиотеками с библиотеками работы с датафреймами. Их уже больше десятка в среде дата аналитиков работа с pandas это скорее унаследованный код чем быстрый код. Есть бенчмарки Database-like ops покрывает 13 библиотек (не самый актуальный, 4 летней давности) и полугодовой давности DataFrames at Scale Comparison с покрытием 4-х библиотек. И это только те бенчмарки которые нейтральные, а есть множество которые делают сами разработчики. Чаще не нейтрально, а подгоняя под особенности своей библиотеки.
Похожая ситуация с ETL/ELT инструментами, BI/OLAP/визуализацией данных, инструментами извлечения данных и так далее.
Это всё формирует нереальную конкуренцию, а вместе с ней усилия команд по непрерывному улучшению их продуктов. К примеру, согласно ClickHouse Versions Benchmark производительность ClickHouse с ранних версий до текущих выросла почти вдвое. А скорость DuckDB выросла от 3 до 10 раз, а и возможность работы с данными большего размера в 10 раз на том же оборудовании.
Всё это о том что технологии работы с данными развиваются очень быстро. Гораздо быстрее чем в предыдущие десятилетия. В них вкладывается и больше инвестиций, и в них больше потребности.
Всё это происходит параллельно с продолжающимся снижением стоимости терабайта, в облаке, и в приобретении дисков для личного хранения.
В итоге расшифровка фразы большие данные мертвы сводится к тому что стоимость работы с данными относительно большого объёма резко снижается, а обработка десятков терабайт структурированных данных на десктопе перестала быть невозможной.
#databases #rdbms #datatools #thoughts
Полезное чтение про данные, технологии и не только:
- Digitalizing sewage: The politics of producing, sharing, and operationalizing data from wastewater-based surveillance [1] оцифровка канализации и переходу к слежке через анализ сточных вод. Скрыто за пейволом, но тема важная, и активно развивающаяся. Годится для тем рассказов социальной фантастики про то как полиция выявляет убийц расчленителей и наркоманов, а медики больных по анализу сточных вод в реальном времени. Статья за пэйволом
- AI Is Bad News for the Global South [2] статья о том что ИИ для развивающихся стран не несёт ничего хорошего. Потому что английский язык, потому что gig-экономика включает многих из развивающихся стран, а теперь будет ИИ контент.
- The Access to Public Information: A Fundamental Right [3] книга Alejandra Soriano Diaz, о том что доступ к информации - это фундаментальное право и от него зависят другие права. Увы, книга не в открытом доступе,
- Kickstarting Collaborative, AI-Ready Datasets in the Life Sciences with Government-funded Projects [4] статья о том что государство должно активно софинансировать создание данных/датасетов в медицине и других life sciences. Там же ссылка на Open Dataset Initiative [5] создание открытых научных датасетов по запросу сообществ.
Ссылки:
[1] https://journals.sagepub.com/doi/abs/10.1177/23996544241313454
[2] https://foreignpolicy.com/2024/12/17/ai-global-south-inequality/
[3] https://www.cambridgescholars.com/product/978-1-0364-1521-1
[4] https://fas.org/publication/collaborative-datasets-life-sciences/
[5] https://alignbio.org/datasets-in-detail
#opendata #data #foi #readings #ai
- Digitalizing sewage: The politics of producing, sharing, and operationalizing data from wastewater-based surveillance [1] оцифровка канализации и переходу к слежке через анализ сточных вод. Скрыто за пейволом, но тема важная, и активно развивающаяся. Годится для тем рассказов социальной фантастики про то как полиция выявляет убийц расчленителей и наркоманов, а медики больных по анализу сточных вод в реальном времени. Статья за пэйволом
- AI Is Bad News for the Global South [2] статья о том что ИИ для развивающихся стран не несёт ничего хорошего. Потому что английский язык, потому что gig-экономика включает многих из развивающихся стран, а теперь будет ИИ контент.
- The Access to Public Information: A Fundamental Right [3] книга Alejandra Soriano Diaz, о том что доступ к информации - это фундаментальное право и от него зависят другие права. Увы, книга не в открытом доступе,
- Kickstarting Collaborative, AI-Ready Datasets in the Life Sciences with Government-funded Projects [4] статья о том что государство должно активно софинансировать создание данных/датасетов в медицине и других life sciences. Там же ссылка на Open Dataset Initiative [5] создание открытых научных датасетов по запросу сообществ.
Ссылки:
[1] https://journals.sagepub.com/doi/abs/10.1177/23996544241313454
[2] https://foreignpolicy.com/2024/12/17/ai-global-south-inequality/
[3] https://www.cambridgescholars.com/product/978-1-0364-1521-1
[4] https://fas.org/publication/collaborative-datasets-life-sciences/
[5] https://alignbio.org/datasets-in-detail
#opendata #data #foi #readings #ai
Вечер пятницы, в качестве разнообразия можно разбавить его мемами мемами про данные;) У меня накопилась приличная коллекция англиязычных, всё хотел перевести их и прикручивать к отдельным постам.😁
Присылайте больше мемов в @begtinchat😉
#humour
Присылайте больше мемов в @begtinchat😉
#humour