Telegram Group Search
DataChain [1] хранилище для AI датасетов с неструктурированными данными вроде изображений, видео, аудио, документов. Открытый код, лицензия Apache 2.0, стремительно набирает пользовательскую базу. Опубликовано одноимённым стартапом. Для хранения используют S3, какой-то отдельный язык запросов я не увидел.

За проектом стоит команда которая делала аналог Git'а для данных DVC, а то есть проблематику они должны понимать хорошо.

В коммерческом сервисе обещают всякие ништяки вроде каталога данных, прослеживаемость данных, интерфейс просмотра мультимодальных данных и тд. Но это то на что интересно посмотреть, а так то может быть применение и только open source продукту.

Ссылки:
[1] https://github.com/iterative/datachain

#opensource #dataengineering
В рубрике открытых российских данных

Цифровой гербарий Московского университета [1] включает более 1 миллиона объектов, фотографий и записей о растениях по всему миру. Копия этой коллекции есть в репозитории GBIF [2] и она доступна в форме открытых данных в форматах аннотированного архива GBIF, EML и CSV файлов.

Он охватывает все постсоветсткие страны и многие страны мира и является одним из крупнейших российских ресурсов открытой науки.

Материалы гербария доступны под лицензией CC-BY

Ссылки:
[1] https://plant.depo.msu.ru/open/public/en
[2] https://www.gbif.org/dataset/902c8fe7-8f38-45b0-854e-c324fed36303

#opendata #russia #msu #herbarium #plants
Любопытная книжка Library Catalogues as Data: Research, Practice and Usage
[1] о том что работа библиотекаря сейчас и работа с библиотеками - это работа с данными. В книге публикации из сектора GLAM (Galleries, Libraries, Archives and Museums) о метаданных, данных и их применении и использовании, в том числе для обучения ИИ. Лично я не уверен что готов отдать за неё 60 или 120 евро (мягкая или твердая обложка), но кто знает, выглядит любопытно.

Ссылки:
[1] https://www.facetpublishing.co.uk/page/detail/library-catalogues-as-data/

#openaccess #glam #libraries #opendata #data
Вышел отчёт ОЭСР Government at Glance 2025 [1] с обзором состояния и трендов государств членов и кандидатов в ОЭСР по таким темам как бюджетные расходы (дефицит), цифровизация, открытость и многое другое.

Для тех кто следит за публикациями ОЭСР будет не так интересно, поскольку в отчетах приводятся данные прошлых лет, 2022-2024 в данном случае, например, цифры по открытости данных из индекса OURIndex за 2023 год и так далее.

Но отчет будет интересен тем что предпочитает читать слова, а не таблицы.

Там же доступны отчеты по отдельным странам.

Из постсоветских стран в ОЭСР представлены только Латвия, Литва и Эстония.

Лично я эти отчеты читаю по диагонали потому что там только общие оценки и графики, а не разбор конкретных кейсов, такие материалы в других документах, но любопытное встречается.

Например, то что в РФ называют проактивными госуслугами, в терминологии ОЭСР звучит как life events approach to service design and delivery и далеко не во всех развитых странах он существует.


Ссылки:
[1] https://www.oecd.org/en/publications/government-at-a-glance-2025_0efd0bcd-en.html

#opengovernment #opendata #readings #oecd #reports
Для тех кто интересуется моя презентация Особенности открытого доступа и открытых данных в гуманитарных науках [1] в открытом доступе, с обзором открытого доступа и открытых научных данных

Ссылки:
[1] https://www.beautiful.ai/player/-OTvQBg2a4JCj0PfyeTk

#opendata #openaccess
Для тех кто работает с веб архивами я обновил инструмент metawarc [1] это утилита для извлечения метаданных из файлов WARC (формат файлов веб архива).

Инструмент нужен для тех кто извлекает метаданные и файлы из WARC файлов, например, можно скачать WARC файл архива сайта Минспорта за 2019 г. , он небольшой, всего около 1ГБ, проиндексировать его и извлечь все PDF файлы, или файлы MS Word, или сразу извлечь все метаданные из документов и изображений.

Штука которая полезна для OSINT задач анализа сайтов организаций, но тема OSINT меня интересует мало.

А основное применение - это анализ больших архивов и организация поиска по ним и поиск интересных данных.

Когда-то давно я делал эту штуку и через неё находил массовое использование пиратского офисного ПО на российских госсайтах, но это было давно и уже давно малоинтересно. Внутри там использовалась база sqlite и при индексации всех метаданных размер этой базы мог достигать до 20% от размера WARC файла. То есть для коллекции в 1ТБ WARC'ов это получалось до 200GB база. А это совсем никуда не годится. После переписывания всё на связку DuckDB + Parquet после индексации объём уменьшился на порядки. Для WARC файла в 4.5ГБ извлеченные метаданные занимают 3.5МБ. А это 0.07%. Реальное сжатие в 285 раз (!), не говоря уже о ускорении операций по анализу и извлечению документов.

Ссылки:
[1] https://github.com/datacoon/metawarc

#opensource #webarchives
2025/07/01 01:42:35
Back to Top
HTML Embed Code: