И, чтобы два раза не вставать, 22 января буду выступать с докладом про Дата инженерию в цифровых гуманитарных науках. На этот раз онлайн, но темы будут пересекаться, хотя и не полностью. В лекции ИВТ РАН я буду рассказывать про конкретные тренды и инструменты для исследователей, без привязке к научным дисциплинам. А в этом докладе буду говорить про пересечение дата инженерии и цифровой гуманитаристики, где именно и какие инструменты для каких задач применимы.
Forwarded from Гуманитарии в цифре
«Цифровая среда»: Иван Бегтин расскажет об инструментах для работы с данными в гуманитарных науках
22 января состоится первое в этом году заседание «Цифровой среды» – научно-методического семинара Института цифровых гуманитарных исследований (DHRI) СФУ о Digital Humanities.
Один из самых интересных практиков Open Data, директор АНО «Информационная культура», создатель международного проекта Dateno и автор популярного телеграм-канала Иван Бегтин выступит с докладом «Дата-инженерия в цифровой гуманитаристике».
🔜 Присоединяйтесь к онлайн-семинару ровно через неделю.
Дата: 22 января
Начало: 14.00 (мск)/ 18.00 (крск)
🔗 Зарегистрироваться и добавить в календарь: здесь
#цифроваясреда #смотреть #слушать #данные #opendata
22 января состоится первое в этом году заседание «Цифровой среды» – научно-методического семинара Института цифровых гуманитарных исследований (DHRI) СФУ о Digital Humanities.
Один из самых интересных практиков Open Data, директор АНО «Информационная культура», создатель международного проекта Dateno и автор популярного телеграм-канала Иван Бегтин выступит с докладом «Дата-инженерия в цифровой гуманитаристике».
Дата: 22 января
Начало: 14.00 (мск)/ 18.00 (крск)
🔗 Зарегистрироваться и добавить в календарь: здесь
#цифроваясреда #смотреть #слушать #данные #opendata
Please open Telegram to view this post
VIEW IN TELEGRAM
Подборка полезных ссылок инструментов с открытым кодом:
- pyper [1] библиотека для Python для параллельной обработки данных, упрощает работу с потоками, делает её значительно проще.
- Gemini-search [2] альтернатива для Perplexity на базе LLM модели Gemini от Google. Плюс: хостится локально. Минус: за обращения к API Гугла надо платить. Мне не удалось её заставить работать, но демо выглядит интересно, надеюсь скоро будет работоспособнее
- Automatisch [3] open source аналог Zapier, используется для интеграции и автоматизации разных онлайн сервисов типа Twitter, Spotify, Google Docs и др. Сервисов таких много, но тут открытый код.
- crawl4ai [4] веб краулер с построением конвееров для обработки страниц для LLM и не только. Мне вот есть куда прикрутить краулер, может быть даже именно этот. А вообще удивительно насколько стремительно становятся популярными именно AI-powered инструменты. К примеру, похожий краулер Browsertrix для веб архивации имеет всего 223 лайка. А у crawl4ai сразу 25 тысяч лайков. Разница, реально, на 2 порядка и интенсивность разработки аналогично.
- PDFMathTranslate [5] open source инструмент перевода научных статей на другие языки, с сохранением всех формул, изображений и тд. Поддерживает все актуальные разговорные языки используемые в науке: английский, китайский, французский, немецкий, русский, испанский и тд. Существует в виде онлайн сервиса с ограничением в менее чем 5MB [6] или можно скачать и развернуть у себя
Ссылки:
[1] https://github.com/pyper-dev/pyper
[2] https://github.com/ammaarreshi/Gemini-Search
[3] https://github.com/automatisch/automatisch
[4] https://github.com/unclecode/crawl4ai
[5] https://github.com/Byaidu/PDFMathTranslate
[6] https://pdf2zh.com/
#opensource #datatools #ai #crawlers #search
- pyper [1] библиотека для Python для параллельной обработки данных, упрощает работу с потоками, делает её значительно проще.
- Gemini-search [2] альтернатива для Perplexity на базе LLM модели Gemini от Google. Плюс: хостится локально. Минус: за обращения к API Гугла надо платить. Мне не удалось её заставить работать, но демо выглядит интересно, надеюсь скоро будет работоспособнее
- Automatisch [3] open source аналог Zapier, используется для интеграции и автоматизации разных онлайн сервисов типа Twitter, Spotify, Google Docs и др. Сервисов таких много, но тут открытый код.
- crawl4ai [4] веб краулер с построением конвееров для обработки страниц для LLM и не только. Мне вот есть куда прикрутить краулер, может быть даже именно этот. А вообще удивительно насколько стремительно становятся популярными именно AI-powered инструменты. К примеру, похожий краулер Browsertrix для веб архивации имеет всего 223 лайка. А у crawl4ai сразу 25 тысяч лайков. Разница, реально, на 2 порядка и интенсивность разработки аналогично.
- PDFMathTranslate [5] open source инструмент перевода научных статей на другие языки, с сохранением всех формул, изображений и тд. Поддерживает все актуальные разговорные языки используемые в науке: английский, китайский, французский, немецкий, русский, испанский и тд. Существует в виде онлайн сервиса с ограничением в менее чем 5MB [6] или можно скачать и развернуть у себя
Ссылки:
[1] https://github.com/pyper-dev/pyper
[2] https://github.com/ammaarreshi/Gemini-Search
[3] https://github.com/automatisch/automatisch
[4] https://github.com/unclecode/crawl4ai
[5] https://github.com/Byaidu/PDFMathTranslate
[6] https://pdf2zh.com/
#opensource #datatools #ai #crawlers #search
Я периодически рассказываю о внутренностях не только Dateno, но и реестра каталогов данных на которых он основан. Я начинал его делать ещё в до самого поисковика и изначально он был разделен на две части.
1-я - это чистовые дата каталоги, по которым метаданные, в основном, собранные вручную. Они были в репозитории в каталоге entries и каждая запись выглядела как YAML файл по определённой структуре. У них был префикс 'cdi' для идентификаторов.
2-я - это временные записи, которые не проходили ручную верификацию и которых было около половины всех каталогов. По ним не были заполнены большая часть сведений которые часто из реестра удалялись. Эти записи были родом из системы поиска каталогов данных которая иногда находила те из них которые уже давно удалены. Они существовали с префиксом "temp" и были в каталоге scheduled.
В итоге оказалось что при обновлении метаданных каждый раз была необходимость удалять старый префикс и назначать новый, а также в том что разделение неэффективно. Приходилось дублировать все операции по обогащению данных на два каталога.
Поэтому одно из важных актуальных изменений реестра в том чтобы свести их в единую модель. И сейчас в последней версии реестра на Github'е [1] лежит датасет с переназначенными идентификаторами и теперь можно приступать к повышению качества каталога автоматизировав присвоение тегов, тем и описаний каждому из них. Это, кстати, то для чего можно применить LLM почти наверняка.
Но это то что является disruptive change поскольку даже временные каталоги данных индексировались в Dateno и их переиндексирование и обновление поиска поменяет некоторые ссылки и в реестре [2] и для датасетов в будущем. Поэтому на самом поиске это отразится не раньше чем через какое-то время, не в ближайшем обновлении.
Реестр - это важная часть качества поиска Dateno поскольку характеристики каталога данных транслируются на датасеты. Если, к примеру, источник данных посвящён здравоохранению то и его параметры переносятся на наборы данных в нём проиндексированные. Это позволяет искать даже те датасеты которые которые своих метаданных имеют мало или почти не содержат. К примеру, почти все датасеты на серверах ArcGIS и Geoserver, но вот их обогащение почти невозможно проводить автоматически, потому на них нет описания содержания этих данных. Геокаталоги, не все, но многие, автоматически документируются довольно плохо. Их наличие делает Dateno одним из наиболее полных поисковиков по геоданным, но искать их сложно если только эти данные не описаны где-то ещё, например, в каталогах Geonetwork со ссылками на георесурсы.
Ссылки:
[1] https://github.com/commondataio/dataportals-registry/
[2] https://dateno.io/registry
#dateno #opendata #datasets
1-я - это чистовые дата каталоги, по которым метаданные, в основном, собранные вручную. Они были в репозитории в каталоге entries и каждая запись выглядела как YAML файл по определённой структуре. У них был префикс 'cdi' для идентификаторов.
2-я - это временные записи, которые не проходили ручную верификацию и которых было около половины всех каталогов. По ним не были заполнены большая часть сведений которые часто из реестра удалялись. Эти записи были родом из системы поиска каталогов данных которая иногда находила те из них которые уже давно удалены. Они существовали с префиксом "temp" и были в каталоге scheduled.
В итоге оказалось что при обновлении метаданных каждый раз была необходимость удалять старый префикс и назначать новый, а также в том что разделение неэффективно. Приходилось дублировать все операции по обогащению данных на два каталога.
Поэтому одно из важных актуальных изменений реестра в том чтобы свести их в единую модель. И сейчас в последней версии реестра на Github'е [1] лежит датасет с переназначенными идентификаторами и теперь можно приступать к повышению качества каталога автоматизировав присвоение тегов, тем и описаний каждому из них. Это, кстати, то для чего можно применить LLM почти наверняка.
Но это то что является disruptive change поскольку даже временные каталоги данных индексировались в Dateno и их переиндексирование и обновление поиска поменяет некоторые ссылки и в реестре [2] и для датасетов в будущем. Поэтому на самом поиске это отразится не раньше чем через какое-то время, не в ближайшем обновлении.
Реестр - это важная часть качества поиска Dateno поскольку характеристики каталога данных транслируются на датасеты. Если, к примеру, источник данных посвящён здравоохранению то и его параметры переносятся на наборы данных в нём проиндексированные. Это позволяет искать даже те датасеты которые которые своих метаданных имеют мало или почти не содержат. К примеру, почти все датасеты на серверах ArcGIS и Geoserver, но вот их обогащение почти невозможно проводить автоматически, потому на них нет описания содержания этих данных. Геокаталоги, не все, но многие, автоматически документируются довольно плохо. Их наличие делает Dateno одним из наиболее полных поисковиков по геоданным, но искать их сложно если только эти данные не описаны где-то ещё, например, в каталогах Geonetwork со ссылками на георесурсы.
Ссылки:
[1] https://github.com/commondataio/dataportals-registry/
[2] https://dateno.io/registry
#dateno #opendata #datasets
GitHub
GitHub - commondataio/dataportals-registry: Registry of data portals, catalogs, data repositories including data catalogs dataset…
Registry of data portals, catalogs, data repositories including data catalogs dataset and catalog description standard - commondataio/dataportals-registry
В рубрике закрытых в России данных открытые данные Государственного каталога музейного фонда [1] на портале открытых данных Минкультуры РФ не обновлялись с сентября 2023 года, почти полтора года.
В виде сайта эти данные доступны на goskatalog.ru [2] и, похоже, там эти данные обновляются поскольку количественно объектов там больше чем на портале открытых данных в этом датасете.
Это, конечно, печальное известие потому как с точки зрения организации доступа к данным именно этот ресурс Минкультуры был сделан лучшем чем большая часть порталов открытых данных в России. Печально если он окончательно помирает, впрочем новости там не публикуются с 2021 года, датасеты потихоньку исчезают, а теперь и не обновляются.
Ссылки:
[1] https://opendata.mkrf.ru/opendata/7705851331-museum-exhibits
[2] https://goskatalog.ru
#opendata #culture #russia #closeddata
В виде сайта эти данные доступны на goskatalog.ru [2] и, похоже, там эти данные обновляются поскольку количественно объектов там больше чем на портале открытых данных в этом датасете.
Это, конечно, печальное известие потому как с точки зрения организации доступа к данным именно этот ресурс Минкультуры был сделан лучшем чем большая часть порталов открытых данных в России. Печально если он окончательно помирает, впрочем новости там не публикуются с 2021 года, датасеты потихоньку исчезают, а теперь и не обновляются.
Ссылки:
[1] https://opendata.mkrf.ru/opendata/7705851331-museum-exhibits
[2] https://goskatalog.ru
#opendata #culture #russia #closeddata
Золотая эпоха баз данных
Я несколько раз уже слышал в выступлениях разработчиков систем управления базами данных (DBMS) о том что сейчас золотая эпоха их создания, и не только самих баз данных, но и инструментов, фреймворков и новых продуктов для работы с данными, всё что связано с дата инженерией.
И да, после размышлений я прихожу к тому же выводу. Число новых DBMS, как совершенно новых, так и использующих существующие движки в расширениями и оптимизацией, растёт стремительно.
Можно посмотреть, например, на базу Database of Databases чтобы увидеть сколько новых движков появляется ежегодно. Или можно посмотреть на аналитические DBMS в бенчмарке Clickbench. Там десятки конкурирующих инструментов и платформ и это ещё не все движки охвачены.
Аналогично с библиотеками с библиотеками работы с датафреймами. Их уже больше десятка в среде дата аналитиков работа с pandas это скорее унаследованный код чем быстрый код. Есть бенчмарки Database-like ops покрывает 13 библиотек (не самый актуальный, 4 летней давности) и полугодовой давности DataFrames at Scale Comparison с покрытием 4-х библиотек. И это только те бенчмарки которые нейтральные, а есть множество которые делают сами разработчики. Чаще не нейтрально, а подгоняя под особенности своей библиотеки.
Похожая ситуация с ETL/ELT инструментами, BI/OLAP/визуализацией данных, инструментами извлечения данных и так далее.
Это всё формирует нереальную конкуренцию, а вместе с ней усилия команд по непрерывному улучшению их продуктов. К примеру, согласно ClickHouse Versions Benchmark производительность ClickHouse с ранних версий до текущих выросла почти вдвое. А скорость DuckDB выросла от 3 до 10 раз, а и возможность работы с данными большего размера в 10 раз на том же оборудовании.
Всё это о том что технологии работы с данными развиваются очень быстро. Гораздо быстрее чем в предыдущие десятилетия. В них вкладывается и больше инвестиций, и в них больше потребности.
Всё это происходит параллельно с продолжающимся снижением стоимости терабайта, в облаке, и в приобретении дисков для личного хранения.
В итоге расшифровка фразы большие данные мертвы сводится к тому что стоимость работы с данными относительно большого объёма резко снижается, а обработка десятков терабайт структурированных данных на десктопе перестала быть невозможной.
#databases #rdbms #datatools #thoughts
Я несколько раз уже слышал в выступлениях разработчиков систем управления базами данных (DBMS) о том что сейчас золотая эпоха их создания, и не только самих баз данных, но и инструментов, фреймворков и новых продуктов для работы с данными, всё что связано с дата инженерией.
И да, после размышлений я прихожу к тому же выводу. Число новых DBMS, как совершенно новых, так и использующих существующие движки в расширениями и оптимизацией, растёт стремительно.
Можно посмотреть, например, на базу Database of Databases чтобы увидеть сколько новых движков появляется ежегодно. Или можно посмотреть на аналитические DBMS в бенчмарке Clickbench. Там десятки конкурирующих инструментов и платформ и это ещё не все движки охвачены.
Аналогично с библиотеками с библиотеками работы с датафреймами. Их уже больше десятка в среде дата аналитиков работа с pandas это скорее унаследованный код чем быстрый код. Есть бенчмарки Database-like ops покрывает 13 библиотек (не самый актуальный, 4 летней давности) и полугодовой давности DataFrames at Scale Comparison с покрытием 4-х библиотек. И это только те бенчмарки которые нейтральные, а есть множество которые делают сами разработчики. Чаще не нейтрально, а подгоняя под особенности своей библиотеки.
Похожая ситуация с ETL/ELT инструментами, BI/OLAP/визуализацией данных, инструментами извлечения данных и так далее.
Это всё формирует нереальную конкуренцию, а вместе с ней усилия команд по непрерывному улучшению их продуктов. К примеру, согласно ClickHouse Versions Benchmark производительность ClickHouse с ранних версий до текущих выросла почти вдвое. А скорость DuckDB выросла от 3 до 10 раз, а и возможность работы с данными большего размера в 10 раз на том же оборудовании.
Всё это о том что технологии работы с данными развиваются очень быстро. Гораздо быстрее чем в предыдущие десятилетия. В них вкладывается и больше инвестиций, и в них больше потребности.
Всё это происходит параллельно с продолжающимся снижением стоимости терабайта, в облаке, и в приобретении дисков для личного хранения.
В итоге расшифровка фразы большие данные мертвы сводится к тому что стоимость работы с данными относительно большого объёма резко снижается, а обработка десятков терабайт структурированных данных на десктопе перестала быть невозможной.
#databases #rdbms #datatools #thoughts
Полезное чтение про данные, технологии и не только:
- Digitalizing sewage: The politics of producing, sharing, and operationalizing data from wastewater-based surveillance [1] оцифровка канализации и переходу к слежке через анализ сточных вод. Скрыто за пейволом, но тема важная, и активно развивающаяся. Годится для тем рассказов социальной фантастики про то как полиция выявляет убийц расчленителей и наркоманов, а медики больных по анализу сточных вод в реальном времени. Статья за пэйволом
- AI Is Bad News for the Global South [2] статья о том что ИИ для развивающихся стран не несёт ничего хорошего. Потому что английский язык, потому что gig-экономика включает многих из развивающихся стран, а теперь будет ИИ контент.
- The Access to Public Information: A Fundamental Right [3] книга Alejandra Soriano Diaz, о том что доступ к информации - это фундаментальное право и от него зависят другие права. Увы, книга не в открытом доступе,
- Kickstarting Collaborative, AI-Ready Datasets in the Life Sciences with Government-funded Projects [4] статья о том что государство должно активно софинансировать создание данных/датасетов в медицине и других life sciences. Там же ссылка на Open Dataset Initiative [5] создание открытых научных датасетов по запросу сообществ.
Ссылки:
[1] https://journals.sagepub.com/doi/abs/10.1177/23996544241313454
[2] https://foreignpolicy.com/2024/12/17/ai-global-south-inequality/
[3] https://www.cambridgescholars.com/product/978-1-0364-1521-1
[4] https://fas.org/publication/collaborative-datasets-life-sciences/
[5] https://alignbio.org/datasets-in-detail
#opendata #data #foi #readings #ai
- Digitalizing sewage: The politics of producing, sharing, and operationalizing data from wastewater-based surveillance [1] оцифровка канализации и переходу к слежке через анализ сточных вод. Скрыто за пейволом, но тема важная, и активно развивающаяся. Годится для тем рассказов социальной фантастики про то как полиция выявляет убийц расчленителей и наркоманов, а медики больных по анализу сточных вод в реальном времени. Статья за пэйволом
- AI Is Bad News for the Global South [2] статья о том что ИИ для развивающихся стран не несёт ничего хорошего. Потому что английский язык, потому что gig-экономика включает многих из развивающихся стран, а теперь будет ИИ контент.
- The Access to Public Information: A Fundamental Right [3] книга Alejandra Soriano Diaz, о том что доступ к информации - это фундаментальное право и от него зависят другие права. Увы, книга не в открытом доступе,
- Kickstarting Collaborative, AI-Ready Datasets in the Life Sciences with Government-funded Projects [4] статья о том что государство должно активно софинансировать создание данных/датасетов в медицине и других life sciences. Там же ссылка на Open Dataset Initiative [5] создание открытых научных датасетов по запросу сообществ.
Ссылки:
[1] https://journals.sagepub.com/doi/abs/10.1177/23996544241313454
[2] https://foreignpolicy.com/2024/12/17/ai-global-south-inequality/
[3] https://www.cambridgescholars.com/product/978-1-0364-1521-1
[4] https://fas.org/publication/collaborative-datasets-life-sciences/
[5] https://alignbio.org/datasets-in-detail
#opendata #data #foi #readings #ai
Вечер пятницы, в качестве разнообразия можно разбавить его мемами мемами про данные;) У меня накопилась приличная коллекция англиязычных, всё хотел перевести их и прикручивать к отдельным постам.😁
Присылайте больше мемов в @begtinchat😉
#humour
Присылайте больше мемов в @begtinchat😉
#humour
Я ранее писал про некоторые каталоги данными с открытыми языковыми ресурсами и про испанский национальный проект по созданию языковых моделей и открытых датасетов, но этот пример далеко не единственный.
В рубрике как это устроено у них, создание открытых данных и языковых моделей в других странах.
Норвегия
- наборы данных и модели в AI-Lab при Национальной библиотеке страны [1]. Датасеты в parquet формате и модели публикуются сразу на платформе Hugging Face. Например, The Norwegian Colossal Corpus [2] датасет в 45ГБ на основе открытых текстов
- ресурсный каталог The Norwegian Language Bank [2] включает 1888 ресурсов, большая часть из которых открытые датасеты и открытый исходный код для работы с ними. Являются частью национального проекта CLARINO [3]
Финляндия
- каталог датасетов Национальной библиотеки Финляндии [4] включает метаданные, справочники, API и полнотекстовые датасеты на финском языке.
- также этот каталог, документация к API и дампы доступны в каталоге данных Национальной библиотеки [5] включая SPARQL и связанные данные в RDF
- есть официальное API [6] к Национальному каталогу культурных объектов Finna (объединение каталогов ведущих культурных организаций страны, аналог Europeana в ЕС или Trove в Австралии)
Австралия и Новая Зеландия
- GLAM-Workbench [7] проект Тима Шератта, историка и хакера, по систематизации всех онлайн датасетов и API Австралии и Новой Зеландии. Он получил несколько грантов за/на эту работу, собрал впечатляющее число ресурсов и огромное число тетрадок для Jupyter Notebook и создал множество датасетов и инструментов для работы с ними
- открытое API Trove [8] проекта Национальной библиотеки страны в партнерстве с сотнями культурных организаций по созданию единого каталога изображений, текстов, видео и других оцифрованных и digital-born материалов
- открытое API музея ACMI [9] посвящённого движущимся изображениям (видео и мультимедиа)
США
- открытое API у Библиотеки Конгресс [10], а также их многочисленные репозитории с открытыми данными [11] включая датасеты веб архивов за последние десятилетия [12]
- весь каталог национальных архивов США [13] и множество других датасетов большого объёма от Национальных архивного агентства США
- множество других источников и датасетов, чаще всего API музеев, библиотек и архивов
Сингапур
- коллекция наборов данных Национальной библиотеки Сингапура [14], по большей части метаданные, но охватывают большую часть коллекций. Публикуются все через национальный портал открытых данных страны data.gov.sg на постоянной основе
Ссылки:
[1] https://ai.nb.no/datasets/
[2] https://huggingface.co/datasets/NbAiLab/NCC
[3] https://www.nb.no/sprakbanken/en/resource-catalogue/
[4] https://www.kiwi.fi/display/Datacatalog/Data+sets
[5] https://data.nationallibrary.fi/
[6] https://api.finna.fi/swagger-ui/?url=%2Fapi%2Fv1%3Fswagger
[7] https://glam-workbench.net/
[8] https://trove.nla.gov.au/about/create-something/using-api
[9] https://www.acmi.net.au/api/
[10] https://www.loc.gov/apis/
[11] https://guides.loc.gov/datasets/repositories
[12] https://labs.loc.gov/work/experiments/webarchive-datasets/
[13] https://www.archives.gov/developer/national-archives-catalog-dataset
[14] https://www.nlb.gov.sg/main/discover-and-learn/discover-our-collections/national%20library%20datasets
#opendata #dataset #glam #openglam #datacatalogs
В рубрике как это устроено у них, создание открытых данных и языковых моделей в других странах.
Норвегия
- наборы данных и модели в AI-Lab при Национальной библиотеке страны [1]. Датасеты в parquet формате и модели публикуются сразу на платформе Hugging Face. Например, The Norwegian Colossal Corpus [2] датасет в 45ГБ на основе открытых текстов
- ресурсный каталог The Norwegian Language Bank [2] включает 1888 ресурсов, большая часть из которых открытые датасеты и открытый исходный код для работы с ними. Являются частью национального проекта CLARINO [3]
Финляндия
- каталог датасетов Национальной библиотеки Финляндии [4] включает метаданные, справочники, API и полнотекстовые датасеты на финском языке.
- также этот каталог, документация к API и дампы доступны в каталоге данных Национальной библиотеки [5] включая SPARQL и связанные данные в RDF
- есть официальное API [6] к Национальному каталогу культурных объектов Finna (объединение каталогов ведущих культурных организаций страны, аналог Europeana в ЕС или Trove в Австралии)
Австралия и Новая Зеландия
- GLAM-Workbench [7] проект Тима Шератта, историка и хакера, по систематизации всех онлайн датасетов и API Австралии и Новой Зеландии. Он получил несколько грантов за/на эту работу, собрал впечатляющее число ресурсов и огромное число тетрадок для Jupyter Notebook и создал множество датасетов и инструментов для работы с ними
- открытое API Trove [8] проекта Национальной библиотеки страны в партнерстве с сотнями культурных организаций по созданию единого каталога изображений, текстов, видео и других оцифрованных и digital-born материалов
- открытое API музея ACMI [9] посвящённого движущимся изображениям (видео и мультимедиа)
США
- открытое API у Библиотеки Конгресс [10], а также их многочисленные репозитории с открытыми данными [11] включая датасеты веб архивов за последние десятилетия [12]
- весь каталог национальных архивов США [13] и множество других датасетов большого объёма от Национальных архивного агентства США
- множество других источников и датасетов, чаще всего API музеев, библиотек и архивов
Сингапур
- коллекция наборов данных Национальной библиотеки Сингапура [14], по большей части метаданные, но охватывают большую часть коллекций. Публикуются все через национальный портал открытых данных страны data.gov.sg на постоянной основе
Ссылки:
[1] https://ai.nb.no/datasets/
[2] https://huggingface.co/datasets/NbAiLab/NCC
[3] https://www.nb.no/sprakbanken/en/resource-catalogue/
[4] https://www.kiwi.fi/display/Datacatalog/Data+sets
[5] https://data.nationallibrary.fi/
[6] https://api.finna.fi/swagger-ui/?url=%2Fapi%2Fv1%3Fswagger
[7] https://glam-workbench.net/
[8] https://trove.nla.gov.au/about/create-something/using-api
[9] https://www.acmi.net.au/api/
[10] https://www.loc.gov/apis/
[11] https://guides.loc.gov/datasets/repositories
[12] https://labs.loc.gov/work/experiments/webarchive-datasets/
[13] https://www.archives.gov/developer/national-archives-catalog-dataset
[14] https://www.nlb.gov.sg/main/discover-and-learn/discover-our-collections/national%20library%20datasets
#opendata #dataset #glam #openglam #datacatalogs
DBT купили SDF
Это весьма важное событие в дата инженерии для тех кто пользуется облачной дата инфраструктурой особенно. DBT - платформа и одноимённая компания [1] по трансформации данных через декларативное описание SQL операций купили компанию (и продукт) SDF [2] который делал то же самое на их же движке, но гораздо эффективнее.
Ссылки:
[1] https://www.getdbt.com
[2] https://www.sdf.com
#datatools #moderndatastack #dbt #dataengineering
Это весьма важное событие в дата инженерии для тех кто пользуется облачной дата инфраструктурой особенно. DBT - платформа и одноимённая компания [1] по трансформации данных через декларативное описание SQL операций купили компанию (и продукт) SDF [2] который делал то же самое на их же движке, но гораздо эффективнее.
Ссылки:
[1] https://www.getdbt.com
[2] https://www.sdf.com
#datatools #moderndatastack #dbt #dataengineering
В последние дни уходящей администрации Байдена, 15 января OMB (Офис управления и бюджета США) выпустили [1] руководство по реализации OPEN Government Data Act [2] это документ с конкретными шагами и требованиями принятого 6 лет назад закона об открытости. Его ещё тогда подписал Трамп, а потом, по разным причинам команда Байдена тянула с ним до последнего и выпустили только сейчас.
Документ короткий, 32 страницы, привязан к контексту и законодательству США. На что можно обратить внимание:
- реализация принципа Open by default
- чёткий перечень причин по которым агентствам рекомендуется выбрать почему они публикуют данные. Там есть, например, развитие технологий ИИ и публикация данных для их обучения и улучшение воспроизводимости научных исследований. Ну и более популярных причин вроде пользы для общества тоже много
- нет жёстких рекомендаций по форматам, упоминают CSV, JSON и XML и то что любые другие машиночитаемые открытые форматы
- всё построено вокруг Federal Data Catalog и инвентаризации данных агентствами, результаты инвентаризации рассматриваются как data asset
- и, конечно, у каждого государственного агентства должен быть Open Data Plan, документ описывающий принципы и порядок раскрытия данных.
Документ выдержанный в правильных терминов открытых лицензий, стандартов, приоритетов и тд. Но, конечно, задержался он на 6 лет:)
Ссылки:
[1] https://www.nextgov.com/digital-government/2025/01/omb-issues-open-government-data-act-guidance-6-years-after-its-signing/402225/
[2] https://www.whitehouse.gov/wp-content/uploads/2025/01/M-25-05-Phase-2-Implementation-of-the-Foundations-for-Evidence-Based-Policymaking-Act-of-2018-Open-Government-Data-Access-and-Management-Guidance.pdf
#opendata #usa #government
Документ короткий, 32 страницы, привязан к контексту и законодательству США. На что можно обратить внимание:
- реализация принципа Open by default
- чёткий перечень причин по которым агентствам рекомендуется выбрать почему они публикуют данные. Там есть, например, развитие технологий ИИ и публикация данных для их обучения и улучшение воспроизводимости научных исследований. Ну и более популярных причин вроде пользы для общества тоже много
- нет жёстких рекомендаций по форматам, упоминают CSV, JSON и XML и то что любые другие машиночитаемые открытые форматы
- всё построено вокруг Federal Data Catalog и инвентаризации данных агентствами, результаты инвентаризации рассматриваются как data asset
- и, конечно, у каждого государственного агентства должен быть Open Data Plan, документ описывающий принципы и порядок раскрытия данных.
Документ выдержанный в правильных терминов открытых лицензий, стандартов, приоритетов и тд. Но, конечно, задержался он на 6 лет:)
Ссылки:
[1] https://www.nextgov.com/digital-government/2025/01/omb-issues-open-government-data-act-guidance-6-years-after-its-signing/402225/
[2] https://www.whitehouse.gov/wp-content/uploads/2025/01/M-25-05-Phase-2-Implementation-of-the-Foundations-for-Evidence-Based-Policymaking-Act-of-2018-Open-Government-Data-Access-and-Management-Guidance.pdf
#opendata #usa #government
Nextgov
OMB issues OPEN Government Data Act guidance 6 years after its signing
The law requires agency data to be open by default.
zVRUz9MdbAr8FC4MOPDfsh07UgKAr8A6.pdf
571.5 KB
Свежая стратегия развития системы государственной статистики и Росстата до 2030 года с сайта Пр-ва РФ [1]. Там есть как хорошее, так и не очень. Я позже разберу его подробнее, а пока надеюсь найдутся те кто его проанализирует и изложит своё мнение.
Попыток реформировать статистику и Росстат было много, но я бы в российских реалиях сказал что успешность реформы зависит во многом от того какой политический вес будет иметь будущий глава Росстата. Пока Росстат остаётся "технической службой" зависящей от других ФОИВов и тд., без собственного голоса и влияния, мне трудно поверить в скорые качественные изменения.
Ссылки:
[1] http://government.ru/news/54008/
#opendata #regulation #russia #statistics
Попыток реформировать статистику и Росстат было много, но я бы в российских реалиях сказал что успешность реформы зависит во многом от того какой политический вес будет иметь будущий глава Росстата. Пока Росстат остаётся "технической службой" зависящей от других ФОИВов и тд., без собственного голоса и влияния, мне трудно поверить в скорые качественные изменения.
Ссылки:
[1] http://government.ru/news/54008/
#opendata #regulation #russia #statistics
Я напомню что завтра с 16:30 до 18:00 веду семинар по Лучшим практикам использования DuckDB и Parquet для исследовательских данным в Институте Востоковедения РАН. Зарегистрироваться можно по ссылке https://ivran.ru/registraciya-na-seminar видео будет через какое-то время доступно.
Этот семинар будет с ориентацией на исследователей, но, по большей части, про технологии с живой демонстрацией на реальных данных. Для тех кто умеет SQL и командную строку хотя бы немного.
А буквально на следующий день, послезавтра, в 14:00 по Москве будет семинар в рамках проекта Дата среда https://dhri.timepad.ru/event/3195088/ где я буду рассказывать про пересечение дата инженерии и цифровой гуманитаристики. Здесь я про SQL и командную строку говорить не буду, но буду немало рассказывать про то где в цифровых гуманитарных проектах есть применение дата инженерии (и где нет).
В общем если хотите технологического погружения, то это завтра, а если понимания предметных областей то послезавтра. Неожиданно так получилось что эти два мероприятия оказались близко, но это и неплохо.
А к завтрашнему мероприятию, заодно, устрою небольшой опрос, следующим постом, о том на каких исследовательских данных делать демонстрацию.
#lectures #teaching #opendata
Этот семинар будет с ориентацией на исследователей, но, по большей части, про технологии с живой демонстрацией на реальных данных. Для тех кто умеет SQL и командную строку хотя бы немного.
А буквально на следующий день, послезавтра, в 14:00 по Москве будет семинар в рамках проекта Дата среда https://dhri.timepad.ru/event/3195088/ где я буду рассказывать про пересечение дата инженерии и цифровой гуманитаристики. Здесь я про SQL и командную строку говорить не буду, но буду немало рассказывать про то где в цифровых гуманитарных проектах есть применение дата инженерии (и где нет).
В общем если хотите технологического погружения, то это завтра, а если понимания предметных областей то послезавтра. Неожиданно так получилось что эти два мероприятия оказались близко, но это и неплохо.
А к завтрашнему мероприятию, заодно, устрою небольшой опрос, следующим постом, о том на каких исследовательских данных делать демонстрацию.
#lectures #teaching #opendata
ivran.ru
Регистрация на семинар
На каких данных сделать демонстрацию работы с исследовательскими данными?
Anonymous Poll
24%
Госкаталог музейного фонда РФ (наибольшая по размеру)
31%
База научно-исследовательских работ в РФ
13%
База законов РФ
2%
База законов Казахстана
4%
База лицензий на такси в Москве на 2021 г (наименьшая по размеру)
11%
Архивная база госконтрактов за 2006-2011 годы
1%
Предложу свой вариант в чате
13%
Просто хочу посмотреть ответы
Незаметное, но существенное одно из последствий AI хайпа последних лет в том что некоммерческий проект независимого открытого поискового индекса Common Crawl в 2023 году привлек 1.3 миллиона долларов [1] пожертвований из которых $500 тыс от его основателя Gil Elbaz, а ещё по $250 тыс. от ИИ компаний OpenAI и Anthropic, $100 от Andreessen Horowitz и ещё $50 от DuckDuckGo.
Для сравнения, в 2022 году бюджет CC оставлял $450 тыс, а в 2020 всего $75 тысяч.
В последнее время Common Crawl используется для обучение LLM и их индекс неоднократно обвиняли в том что в нем содержатся материалы под копирайтом, а также в том что 40% проиндексированных текстов на английском языке.
Важнее то что весь их проект основан на экосистеме инструментов WARC и, кстати, DuckDB и файлов Parquet.
В планы на 2025 год они закладывали создание инструментов с открытым кодом для лучшего понимания их датасетов [3], что интересно поскольку инструментов визуализации и навигации по WARC файлам веб архивов явно нехватает.
Ссылки:
[1] https://commoncrawl.org
[2] https://projects.propublica.org/nonprofits/organizations/261635908
[3] https://commoncrawl.org/blog/august-september-2024-newsletter
#digitalpreservation #webarchives #opendata
Для сравнения, в 2022 году бюджет CC оставлял $450 тыс, а в 2020 всего $75 тысяч.
В последнее время Common Crawl используется для обучение LLM и их индекс неоднократно обвиняли в том что в нем содержатся материалы под копирайтом, а также в том что 40% проиндексированных текстов на английском языке.
Важнее то что весь их проект основан на экосистеме инструментов WARC и, кстати, DuckDB и файлов Parquet.
В планы на 2025 год они закладывали создание инструментов с открытым кодом для лучшего понимания их датасетов [3], что интересно поскольку инструментов визуализации и навигации по WARC файлам веб архивов явно нехватает.
Ссылки:
[1] https://commoncrawl.org
[2] https://projects.propublica.org/nonprofits/organizations/261635908
[3] https://commoncrawl.org/blog/august-september-2024-newsletter
#digitalpreservation #webarchives #opendata