Telegram Group Search
Для тех кто интересуется моя презентация Особенности открытого доступа и открытых данных в гуманитарных науках [1] в открытом доступе, с обзором открытого доступа и открытых научных данных

Ссылки:
[1] https://www.beautiful.ai/player/-OTvQBg2a4JCj0PfyeTk

#opendata #openaccess
Для тех кто работает с веб архивами я обновил инструмент metawarc [1] это утилита для извлечения метаданных из файлов WARC (формат файлов веб архива).

Инструмент нужен для тех кто извлекает метаданные и файлы из WARC файлов, например, можно скачать WARC файл архива сайта Минспорта за 2019 г. , он небольшой, всего около 1ГБ, проиндексировать его и извлечь все PDF файлы, или файлы MS Word, или сразу извлечь все метаданные из документов и изображений.

Штука которая полезна для OSINT задач анализа сайтов организаций, но тема OSINT меня интересует мало.

А основное применение - это анализ больших архивов и организация поиска по ним и поиск интересных данных.

Когда-то давно я делал эту штуку и через неё находил массовое использование пиратского офисного ПО на российских госсайтах, но это было давно и уже давно малоинтересно. Внутри там использовалась база sqlite и при индексации всех метаданных размер этой базы мог достигать до 20% от размера WARC файла. То есть для коллекции в 1ТБ WARC'ов это получалось до 200GB база. А это совсем никуда не годится. После переписывания всё на связку DuckDB + Parquet после индексации объём уменьшился на порядки. Для WARC файла в 4.5ГБ извлеченные метаданные занимают 3.5МБ. А это 0.07%. Реальное сжатие в 285 раз (!), не говоря уже о ускорении операций по анализу и извлечению документов.

Ссылки:
[1] https://github.com/datacoon/metawarc

#opensource #webarchives
2025/06/30 19:42:52
Back to Top
HTML Embed Code: