Telegram Group Search
В рубрике интересных инструментов работы с данными Mathesar [1] ещё одна альтернатива Airtable, с открытым кодом под GPL-3.0 и похожий во многом на Teable о котором я ранее писал.

Если вкратце то это UI поверх таблиц в PostgreSQL. Выглядит как удобная штука в жанре онлайн MS Access.

Альтернативы Airtable - это хорошая новость, со многими данными надо работать руками и не всё доверишь облакам.

Ссылки:
[1] https://mathesar.org

#opensource #datatools
Вышла новая версия Duckdb 1.2.0 [1] что важно - это существенная оптимизация скорости чтения данных. Пишут что обновили парсер для CSV [2] ускорив его до 15% и общие ускорение на 13% по тестам TPC-H SF100.

Из другого важного - CSV парсер теперь поддерживает кодировки UTF-16 и Latin-1. Это хорошо, но пока недостаточно. Один из актуальных недостатков DuckDB в том что до сих пор он поддерживал только CSV файлы в кодировке UTF-8, а из всех остальных кодировок данные надо было преобразовывать. Почему так лично я до сих пор не знаю, подозреваю что дело в том что команда DuckDB фокусируется на повышении производительности.

Там есть и другие изменения, но, в целом, менее значимые. Основные сценарии использования DuckDB связаны с парсингом CSV и работой с другими дата-файлами и с общей производительностью.

Ссылки:
[1] https://duckdb.org/2025/02/05/announcing-duckdb-120
[2] https://github.com/duckdb/duckdb/pull/14260

#opensource #duckdb #datatools #rdbms
Снимаю на время шляпу дата инженера и одеваю шляпу специалиста по анализу госрасходов.

Я почти 20 лет анализом госзакупок занимался. Участвовал в создании первой версии портала госзакупок в РФ за 2006-2009 годы, потом создавал общественный портал госзакупок clearpspending.ru (сейчас его развивает Инфокультура) и создавал портал Госрасходы в Счетной палате РФ (сейчас портал закрыт) и, кроме всего прочего, вот уже много лет анализировал то как информация о бюджетах, контрактах, госрасходах публиковалась в мире. В последнее время я уделял этой теме сильно меньше внимания, потому что с данными работать интереснее, но ничего не забыл

Итак, по поводу последних событий вокруг USAID и особенностей происходящего. Важно знать о том как USAID работало все эти годы и то как осуществлялись расходы. Расходы ведомства публиковались и доступны на сайтах Grants.gov, SAM.gov и USASpending.gov, но в США особенность публикации данных о расходах в том что не все расходы публикуются с указанием исполнителя, а также то что многие исполнители по госконтрактам и грантам являются зонтичными получателями средств, далее раздавая их меньшими порциями конечным получателям. Иногда это может быть цепочка в несколько организаций.

Кроме того есть множество контрактов получателями которых значатся MISCELLANEOUS FOREIGN AWARDEES. Например, контракты ASST_NON_AIDDFDA000800304_7200, ASST_NON_AID306A000300504_7200 и так далее. Таких контрактов более 10 тысяч и таких грантов чуть менее 2 тысяч. Всего на общую сумму в 29 миллиардов долларов.

Собственно особенность системы раскрытия информации о госзакупках в США в выборочной закрытости. Информация о контракте удаляется не полностью, а убирается только наименование получателя, всё остальное публикуется.

При этом, конечно же, информация о конечных получателях средств внутри USAID должна собираться. Точно в случае зонтичных контрактов со скрытыми получателями, так и в случае контрактов через крупных подрядчиков посредников.

Наиболее потенциально пугающий сценарий - это если администрация Трампа вместе с трансформацией/ликвидацией USAID рассекретит эти сведения. Пострадают от этого очень многие, а администрация Трампа наберёт дополнительных плюшек со словами "Мы вам говорили что они радикалы лунатики, вот, смотрите, всё так и есть". Для многих не самых демократических стран это, неизбежно, станет мощнейшим толчком для пропаганды.

Но про политику я здесь писать ничего не хочу, уверен что есть много уважаемых и достойных людей/команд как получавших средств от USAID так и категорически от них отказывавшихся. Добавлю лишь ещё один источник сведений об их активности - это база IATI Registry, по сути переформатированные данные из USASpending.gov.

#opendata #spending #contracting #usaid
Возвращаю на голову шляпу дата инженера и продолжаю про разные инструменты.

Одна из рабочих идей у меня сейчас - это инструмент автоматического документирования датасетов/баз данных с приоритетом на "дикие данные" когда файл с данными есть, а документации на него нет. Очень частая ситуация с порталами открытых данных.

Причём потребность в таком инструменте уже очень давно есть, а вот наглядно я видел только облачный сервис CastorDoc который в этом продвинулся и только некоторые дата каталоги. А я сам экспериментировал и создал утилиту metacrafter для идентификации семантических типов данных. Но потребность в автодокументировании шире. Это, как минимум:
1. Автоматизация описания полей набора данных, желательно на нескольких языках: английский, испанский, русский, армянский и тд.
2. Написание описания набора данных так чтобы по датасету или его части можно было бы рассказать о чём он.
3. Описание структуры датасета не просто перечислением полей, а указание типа, описания полей, числа уникальных записей и тд.
4. Автоидентификация и документирование справочников. Почти всегда эти справочники есть и почти всегда их необходимо идентифицировать и описывать.
5. Автоматическая генерация типовых запросов к данным по аналогии с автогенерацией кода для доступа к API, нужны автосгенерированные запросы для доступа к данным.

Это всё самое очевидное, чуть более неочевидное это генерация документации по шаблонам, на разных языках и многое другое.

Самое простое и быстрое решение которое я вижу - это связка DuckDB + LLM модель, простые эксперименты подтверждают что это возможно и несложно. Но если Вы знаете хорошие/эффективные/удобные инструменты документирования датасетов - поделитесь, интересно их посмотреть в работе. Особенно те что с открытым кодом.

#opendata #datadocumentation #opensource #datatools #ideas
ChatGPT теперь даёт возможность поиска и интерактива без авторизации [1] вот что конкуренция творит, а всего-то китайцы запустили Deepseek😜

Ссылки:
[1] https://chatgpt.com/?hints=search

#llm #ai #chatgpt
https://dhsprogram.com/

https://dhsprogram.com/data/available-datasets.cfm

https://www.idhsdata.org/idhs/

https://www.statcompiler.com/en/

https://dhsprogram.com/Countries/index.cfm?show=map#activeType=_all&printStyle=false&mLon=12.8&mLat=11.7&mLev=2&title=Where%20We%20Work&desc=

https://dhsprogram.com/search/

https://dhsprogram.com/Research/Featured-Studies.cfm

Самая лучшая в мире база данных демографических обследований по развивающимся странам может кануть в небытие уже завтра или на днях.
Если это случится, то "спасибо" Трампу, будь он неладен.
Выражение "СЛОН в посудной лавке" играет новыми красками, преимущественно чёрными.
Скачивайте всё, что можно.
Эти данные используются в т. ч. ООН для демографического прогнозирования.
По многим странам других данных нет, или они низкого качества.
Тренды, тренды и снова тренды. Я про какие-то из них писал в конце декабря и начале января, а какие-то пропустил, много разговоров которые слышу прямо или косвенно:

- Common Digital Infrastructure. Одна из актуальных тем для общественных, исследовательских, некоммерческих и культурных проектов в том что все они зависят от инфраструктуры Big Tech'ов, что немало многих напрягает. В мире сейчас нет проектов по современной инфраструктуре для хранения того что называется digital common goods. Если, к примеру, Вы хотите сделать большой и интересный набор данных или бесплатный открытый инструмент, то надо для этого, или покупать инфраструктуру в одном из очень крупных облаков, или клянчить инфраструктурные ресурсы в рамках программ Big Tech (есть, как минимум, у Amazon) или дороже делать своими силами.

- Демократизация аналитики на данных большого объёма. Новые/старые инструменты Clickhouse, DuckDB, Polars и data lakes разного типа и другие позволяют снизить объёмы хранимых данных, значительно упростить работу с данными большого объёма для тех кто раньше с ними работать не мог. Это такая маленькая-большая революция в работе с данными которая будет всё более превращаться в мэйнстрим по мере появления интерактивных инструментов. Это относится и к языковым моделям которые всё более успешно запускаются на устройствах весьма недорогих и компактных. Я об этом пишу регулярно тут.

#trends #data
В рубрике интересных наборов данных много датасетов связанных с переходом власти в США, в первую очередь созданных активистами спасающими данные скрываемые/удаляемые администрацией Трампа.

End of term archive [1] совместный проект International Internet Preservation Consortium (IIPC), National Digital Infrastructure and Preservation Program (NDIIPP), Университетов Стенфорда и Джорджа Вашингтона, по архивации всех данных и цифровых материалов при смене президентов в США. Включает коллекции за 2008, 2012, 2016 и 2020 годы. Общий объём датасетов порядка 450TB.
Работа идёт в форме открытого кода [2] и открытых датасетов [3] и сейчас продолжается архивация ресурсов связанных с прошлой администрацией Байдена [4]. Копия данных хранится в Интернет Архиве [5] и, на сегодняшний день, составляет более 582 TB

Другой проект ForeignAssistance dot gov emergency backup [7] архив государственного сайта ForeignAssistance.gov где USAID раскрывали аналитику международной помощи. Он, также, был закрыт во время закрытия USAID. Всё что удалось сохранить автор проекта превратил в наборы данных CSV

Data.gov archive [8] проект по архивации данных из портала Data.gov от Harvard Law School Library и все данные они выложили в открытый каталог данных большого объёма Source Cooperative [9]. Лично я не ожидал что они выложат его именно туда, в Source Cooperative по большей части геоданные, но зато и хранение заточено под облачное хранение в амазоне данных большого объёма. Всего 16TB

Проект Environment Data & Governance Initiative продолжил работу после первого срока Трампа и с января месяца они постоянно сохраняют климатические данные и ресурсы. Подобнее в их блоге [10]

А также существует значительное число инициатив меньшего масштаба.

Сохранение данных, цифровых объектов и знаний становится всё более значимой задачей. Кто-то выделяет на него личное время, кто-то ресурсы и сотрудников (проект EOT Archive), кто-то быстро находит финансирование (проект архива Data.gov был профинансирован Фондом Братьев Рокфеллеров).

Ссылки:
[1] https://eotarchive.org
[2] https://github.com/end-of-term
[3] https://eotarchive.org/data/
[4] https://github.com/end-of-term/eot2024
[5] https://archive.org/details/EndofTermWebCrawls
[6] https://archive.org/details/EndOfTerm2024WebCrawls
[7] https://foreignassistance.andrewheiss.com/
[8] https://lil.law.harvard.edu/blog/2025/02/06/announcing-data-gov-archive/
[9] https://source.coop/repositories/harvard-lil/gov-data/description
[10] https://envirodatagov.org/blog/

#digitalpreservation #webarchives #trump #usa
В рубрике интересной визуализации данных DataRepublican [1] проект по визуализации доноров и получателей средств НКО в США и ряд других визуализаций. Можно сказать этакое пересечение Республиканской партии США и дата журналистики, редкое явление, но можно убедиться что реальное. На них ссылаются Wikileaks [2] подсвечивая расходы денег налогоплательщиков США на Internews [3], НКО получавшую существенную долю средств от USAID и поддерживавшее значительную часть СМИ по всему миру.

Что характерно в аккаунте Wikileaks большая волна идёт против USAID [4] с публикациями множества документов подтверждающих что мол они "лицемерные нехорошие ребята" и прямой инструмент мягкой силы США. В общем немного странно видеть такое единодушие WikiLeaks и республиканских блогеров, но допускаю что что-то пропустил.

А теперь про чисто техническое
Сама визуализация на DataRepublican интересная ещё и по тому как она сделана. Я вначале думал что там какая-то графовая база данных внутри, вроде Neo4J и сложные запросы через openCypher, но всё оказалось интереснее. В графах они подгружают на клиента ZIP файлы с CSV файлами внутри, около 7 мегабайт и распаковывают и отображают их через Javascript.

Очень оригинальное решение, я давно такого не видел. Вместо API грузить на клиента большие заархивированные батчи и обрабатывать их там после распаковки.

У них всё это, данные и код, есть в открытом репозитории, можно будет как-нибудь изучить [5]

Ссылки:
[1] https://datarepublican.com
[2] https://x.com/wikileaks/status/1888098131537183170
[3] https://datarepublican.com/expose/?eins=943027961
[4] https://x.com/wikileaks
[5] https://github.com/DataRepublican/datarepublican

#opendata #opensource #wikileaks #dataviz
В рубрике особо интересных наборов данных "ScatSpotter" 2024 -- A Distributed Dog Poop Detection Dataset [1] аннотированный набор данных фотографий собачьих фекалий объёмом в 42 гигабайт. Шутки-шутками, а очень полезный датасет для тех кто проектирует системы идентификации мусора и его уборки😉

Но, что интереснее, сам датасет опубликован только как torrent ссылка magnet и на распределенной файловой системе IPFS.

Его исходный код есть на Github [3], а датасет можно найти на Academic Torrents [4], например, или через IPFS Gateway [5]

Заодно очень хочется порадоваться за исследователей которые могут заниматься изучением собачьих фекалий, а не вот это вот всё.😂

Ссылки:
[1] https://arxiv.org/abs/2412.16473
[2] https://paperswithcode.com/paper/scatspotter-2024-a-distributed-dog-poop
[3] https://github.com/Erotemic/shitspotter
[4] https://academictorrents.com/details/ee8d2c87a39ea9bfe48bef7eb4ca12eb68852c49
[5] https://ipfs.io/ipfs/QmQonrckXZq37ZHDoRGN4xVBkqedvJRgYyzp2aBC5Ujpyp/?autoadapt=0&immediatecontinue=1&magiclibraryconfirmation=0&redirectURL=bafybeiedwp2zvmdyb2c2axrcl455xfbv2mgdbhgkc3dile4dftiimwth2y&requiresorigin=0&web3domain=0

#opendata #datasets #ipfs #torrents
Про эксперименты с автоматизированным документированием датасетов, вот живой пример документирования связки DuckDB + LLM. На вход файл в формате Parquet, можно увидеть его содержимое. На выходе таблица с размеченными колонками. Некоторые LLM дают очень хороший результат с описанием колонок на основе их названия с пониманием контекста и расшифровкой полей в зависимости от контекста который LLM тоже понимает.
Осталось дообогатить таблицу семантическим типом данных и добавить генерацию документации. На вход был файл дампа Единого структурированного справочника-каталога лекарственных препаратов (ЕСКЛП), а на выходе его описание.

Осталось понять сделать ли это отдельным инструментом или встроить в ранее созданные утилиты undatum или metacrafter которые тут пересекаются

#datadocumentation #dataengineering #datatools
В качестве регулярного напоминания портал российский государственный портал открытых данных data.gov.ru недоступен почти два года, с начала марта 2023 года. Новая версия должна быть открыта в этом году, но почти наверняка не будет содержать всех данных что были ранее.

В 2022 году я делал полный архивный слепок портала и он доступен для выгрузки [1]. Это 13GB в ZIP файле и около 29GB после распаковки.

Ссылки:
[1] https://hubofdata.ru/dataset/datagovru-20220202

#opendata #opengov #russia #datasets #digitalpreservation #webarchives
В рубрике плохих примеров публикации данных статистические данные и портал открытых данных Германии. В Германии официальный портал открытых данных govdata.de [1] содержит более 130 тысяч наборов данных, в самых разных форматах. Причём очень много геоданных и не только в машиночитаемых форматах, но и просто в виде PDF файлов карт. Среди этих данных около 3 тысяч наборов - это официальная статистика статслужбы Германии DESTATIS [2]. DESTATIS эксплуатирует платформу публикации официальной статистики Genesis [3] на которой доступны статистические индикаторы.

Так вот что важно знать:
1. Там отсутствует публикация данных в общепринятых стандартах вроде SDMX
2. Данные на сайте платформы отдаются в форматах XLSX, CSV и CSV (flat)
3. А через нац портал статистики они ещё и доступны со ссылкой на CSV формат и XML. Например, тут [4].

Так вот CSV файл из Genesis - это не нормальный CSV файл, а в их собственном формате в результате чего для него требуется отдельный парсер. Выглядит он как на этом скриншоте. Автоматически можно обрабатывать, или XML, или CSV формат который CSV (flat) который доступен только с сайте Genesis.

Про проблемы работы с метаданными Genesis и GovData.de я как-нибудь отдельно, скажу лишь что в отличие от ряда других стран ЕС в Германии всё хорошо с масштабами раскрытия данных, но довольно плохо с системным подходом в этой области и в части публикации статистики у меня лично много вопросов, не про методологию, а именно про удобство доступа.

Ссылки:
[1] https://govdata.de
[2] https://www.destatis.de
[3] https://www-genesis.destatis.de/datenbank/online
[4] https://www.govdata.de/suche/daten/bevolkerung-erwerbstatige-erwerbslose-erwerbspersonen-nichterwerbspersonen-aus-hauptwohnsitzhau35dcf

#opendata #germany #datasets
2025/02/11 00:25:13
Back to Top
HTML Embed Code: