В рубрике интересных инструментов работы с данными Mathesar [1] ещё одна альтернатива Airtable, с открытым кодом под GPL-3.0 и похожий во многом на Teable о котором я ранее писал.
Если вкратце то это UI поверх таблиц в PostgreSQL. Выглядит как удобная штука в жанре онлайн MS Access.
Альтернативы Airtable - это хорошая новость, со многими данными надо работать руками и не всё доверишь облакам.
Ссылки:
[1] https://mathesar.org
#opensource #datatools
Если вкратце то это UI поверх таблиц в PostgreSQL. Выглядит как удобная штука в жанре онлайн MS Access.
Альтернативы Airtable - это хорошая новость, со многими данными надо работать руками и не всё доверишь облакам.
Ссылки:
[1] https://mathesar.org
#opensource #datatools
Вышла новая версия Duckdb 1.2.0 [1] что важно - это существенная оптимизация скорости чтения данных. Пишут что обновили парсер для CSV [2] ускорив его до 15% и общие ускорение на 13% по тестам TPC-H SF100.
Из другого важного - CSV парсер теперь поддерживает кодировки UTF-16 и Latin-1. Это хорошо, но пока недостаточно. Один из актуальных недостатков DuckDB в том что до сих пор он поддерживал только CSV файлы в кодировке UTF-8, а из всех остальных кодировок данные надо было преобразовывать. Почему так лично я до сих пор не знаю, подозреваю что дело в том что команда DuckDB фокусируется на повышении производительности.
Там есть и другие изменения, но, в целом, менее значимые. Основные сценарии использования DuckDB связаны с парсингом CSV и работой с другими дата-файлами и с общей производительностью.
Ссылки:
[1] https://duckdb.org/2025/02/05/announcing-duckdb-120
[2] https://github.com/duckdb/duckdb/pull/14260
#opensource #duckdb #datatools #rdbms
Из другого важного - CSV парсер теперь поддерживает кодировки UTF-16 и Latin-1. Это хорошо, но пока недостаточно. Один из актуальных недостатков DuckDB в том что до сих пор он поддерживал только CSV файлы в кодировке UTF-8, а из всех остальных кодировок данные надо было преобразовывать. Почему так лично я до сих пор не знаю, подозреваю что дело в том что команда DuckDB фокусируется на повышении производительности.
Там есть и другие изменения, но, в целом, менее значимые. Основные сценарии использования DuckDB связаны с парсингом CSV и работой с другими дата-файлами и с общей производительностью.
Ссылки:
[1] https://duckdb.org/2025/02/05/announcing-duckdb-120
[2] https://github.com/duckdb/duckdb/pull/14260
#opensource #duckdb #datatools #rdbms
DuckDB
Announcing DuckDB 1.2.0
The DuckDB team is happy to announce that today we're releasing DuckDB version 1.2.0, codenamed “Histrionicus”.
Снимаю на время шляпу дата инженера и одеваю шляпу специалиста по анализу госрасходов.
Я почти 20 лет анализом госзакупок занимался. Участвовал в создании первой версии портала госзакупок в РФ за 2006-2009 годы, потом создавал общественный портал госзакупок clearpspending.ru (сейчас его развивает Инфокультура) и создавал портал Госрасходы в Счетной палате РФ (сейчас портал закрыт) и, кроме всего прочего, вот уже много лет анализировал то как информация о бюджетах, контрактах, госрасходах публиковалась в мире. В последнее время я уделял этой теме сильно меньше внимания, потому что с данными работать интереснее, но ничего не забыл
Итак, по поводу последних событий вокруг USAID и особенностей происходящего. Важно знать о том как USAID работало все эти годы и то как осуществлялись расходы. Расходы ведомства публиковались и доступны на сайтах Grants.gov, SAM.gov и USASpending.gov, но в США особенность публикации данных о расходах в том что не все расходы публикуются с указанием исполнителя, а также то что многие исполнители по госконтрактам и грантам являются зонтичными получателями средств, далее раздавая их меньшими порциями конечным получателям. Иногда это может быть цепочка в несколько организаций.
Кроме того есть множество контрактов получателями которых значатся MISCELLANEOUS FOREIGN AWARDEES. Например, контракты ASST_NON_AIDDFDA000800304_7200, ASST_NON_AID306A000300504_7200 и так далее. Таких контрактов более 10 тысяч и таких грантов чуть менее 2 тысяч. Всего на общую сумму в 29 миллиардов долларов.
Собственно особенность системы раскрытия информации о госзакупках в США в выборочной закрытости. Информация о контракте удаляется не полностью, а убирается только наименование получателя, всё остальное публикуется.
При этом, конечно же, информация о конечных получателях средств внутри USAID должна собираться. Точно в случае зонтичных контрактов со скрытыми получателями, так и в случае контрактов через крупных подрядчиков посредников.
Наиболее потенциально пугающий сценарий - это если администрация Трампа вместе с трансформацией/ликвидацией USAID рассекретит эти сведения. Пострадают от этого очень многие, а администрация Трампа наберёт дополнительных плюшек со словами "Мы вам говорили что они радикалы лунатики, вот, смотрите, всё так и есть". Для многих не самых демократических стран это, неизбежно, станет мощнейшим толчком для пропаганды.
Но про политику я здесь писать ничего не хочу, уверен что есть много уважаемых и достойных людей/команд как получавших средств от USAID так и категорически от них отказывавшихся. Добавлю лишь ещё один источник сведений об их активности - это база IATI Registry, по сути переформатированные данные из USASpending.gov.
#opendata #spending #contracting #usaid
Я почти 20 лет анализом госзакупок занимался. Участвовал в создании первой версии портала госзакупок в РФ за 2006-2009 годы, потом создавал общественный портал госзакупок clearpspending.ru (сейчас его развивает Инфокультура) и создавал портал Госрасходы в Счетной палате РФ (сейчас портал закрыт) и, кроме всего прочего, вот уже много лет анализировал то как информация о бюджетах, контрактах, госрасходах публиковалась в мире. В последнее время я уделял этой теме сильно меньше внимания, потому что с данными работать интереснее, но ничего не забыл
Итак, по поводу последних событий вокруг USAID и особенностей происходящего. Важно знать о том как USAID работало все эти годы и то как осуществлялись расходы. Расходы ведомства публиковались и доступны на сайтах Grants.gov, SAM.gov и USASpending.gov, но в США особенность публикации данных о расходах в том что не все расходы публикуются с указанием исполнителя, а также то что многие исполнители по госконтрактам и грантам являются зонтичными получателями средств, далее раздавая их меньшими порциями конечным получателям. Иногда это может быть цепочка в несколько организаций.
Кроме того есть множество контрактов получателями которых значатся MISCELLANEOUS FOREIGN AWARDEES. Например, контракты ASST_NON_AIDDFDA000800304_7200, ASST_NON_AID306A000300504_7200 и так далее. Таких контрактов более 10 тысяч и таких грантов чуть менее 2 тысяч. Всего на общую сумму в 29 миллиардов долларов.
Собственно особенность системы раскрытия информации о госзакупках в США в выборочной закрытости. Информация о контракте удаляется не полностью, а убирается только наименование получателя, всё остальное публикуется.
При этом, конечно же, информация о конечных получателях средств внутри USAID должна собираться. Точно в случае зонтичных контрактов со скрытыми получателями, так и в случае контрактов через крупных подрядчиков посредников.
Наиболее потенциально пугающий сценарий - это если администрация Трампа вместе с трансформацией/ликвидацией USAID рассекретит эти сведения. Пострадают от этого очень многие, а администрация Трампа наберёт дополнительных плюшек со словами "Мы вам говорили что они радикалы лунатики, вот, смотрите, всё так и есть". Для многих не самых демократических стран это, неизбежно, станет мощнейшим толчком для пропаганды.
Но про политику я здесь писать ничего не хочу, уверен что есть много уважаемых и достойных людей/команд как получавших средств от USAID так и категорически от них отказывавшихся. Добавлю лишь ещё один источник сведений об их активности - это база IATI Registry, по сути переформатированные данные из USASpending.gov.
#opendata #spending #contracting #usaid
Возвращаю на голову шляпу дата инженера и продолжаю про разные инструменты.
Одна из рабочих идей у меня сейчас - это инструмент автоматического документирования датасетов/баз данных с приоритетом на "дикие данные" когда файл с данными есть, а документации на него нет. Очень частая ситуация с порталами открытых данных.
Причём потребность в таком инструменте уже очень давно есть, а вот наглядно я видел только облачный сервис CastorDoc который в этом продвинулся и только некоторые дата каталоги. А я сам экспериментировал и создал утилиту metacrafter для идентификации семантических типов данных. Но потребность в автодокументировании шире. Это, как минимум:
1. Автоматизация описания полей набора данных, желательно на нескольких языках: английский, испанский, русский, армянский и тд.
2. Написание описания набора данных так чтобы по датасету или его части можно было бы рассказать о чём он.
3. Описание структуры датасета не просто перечислением полей, а указание типа, описания полей, числа уникальных записей и тд.
4. Автоидентификация и документирование справочников. Почти всегда эти справочники есть и почти всегда их необходимо идентифицировать и описывать.
5. Автоматическая генерация типовых запросов к данным по аналогии с автогенерацией кода для доступа к API, нужны автосгенерированные запросы для доступа к данным.
Это всё самое очевидное, чуть более неочевидное это генерация документации по шаблонам, на разных языках и многое другое.
Самое простое и быстрое решение которое я вижу - это связка DuckDB + LLM модель, простые эксперименты подтверждают что это возможно и несложно. Но если Вы знаете хорошие/эффективные/удобные инструменты документирования датасетов - поделитесь, интересно их посмотреть в работе. Особенно те что с открытым кодом.
#opendata #datadocumentation #opensource #datatools #ideas
Одна из рабочих идей у меня сейчас - это инструмент автоматического документирования датасетов/баз данных с приоритетом на "дикие данные" когда файл с данными есть, а документации на него нет. Очень частая ситуация с порталами открытых данных.
Причём потребность в таком инструменте уже очень давно есть, а вот наглядно я видел только облачный сервис CastorDoc который в этом продвинулся и только некоторые дата каталоги. А я сам экспериментировал и создал утилиту metacrafter для идентификации семантических типов данных. Но потребность в автодокументировании шире. Это, как минимум:
1. Автоматизация описания полей набора данных, желательно на нескольких языках: английский, испанский, русский, армянский и тд.
2. Написание описания набора данных так чтобы по датасету или его части можно было бы рассказать о чём он.
3. Описание структуры датасета не просто перечислением полей, а указание типа, описания полей, числа уникальных записей и тд.
4. Автоидентификация и документирование справочников. Почти всегда эти справочники есть и почти всегда их необходимо идентифицировать и описывать.
5. Автоматическая генерация типовых запросов к данным по аналогии с автогенерацией кода для доступа к API, нужны автосгенерированные запросы для доступа к данным.
Это всё самое очевидное, чуть более неочевидное это генерация документации по шаблонам, на разных языках и многое другое.
Самое простое и быстрое решение которое я вижу - это связка DuckDB + LLM модель, простые эксперименты подтверждают что это возможно и несложно. Но если Вы знаете хорошие/эффективные/удобные инструменты документирования датасетов - поделитесь, интересно их посмотреть в работе. Особенно те что с открытым кодом.
#opendata #datadocumentation #opensource #datatools #ideas
ChatGPT теперь даёт возможность поиска и интерактива без авторизации [1] вот что конкуренция творит, а всего-то китайцы запустили Deepseek😜
Ссылки:
[1] https://chatgpt.com/?hints=search
#llm #ai #chatgpt
Ссылки:
[1] https://chatgpt.com/?hints=search
#llm #ai #chatgpt
Forwarded from Демография от Ракши/Demographic news and thoughts
https://dhsprogram.com/
https://dhsprogram.com/data/available-datasets.cfm
https://www.idhsdata.org/idhs/
https://www.statcompiler.com/en/
https://dhsprogram.com/Countries/index.cfm?show=map#activeType=_all&printStyle=false&mLon=12.8&mLat=11.7&mLev=2&title=Where%20We%20Work&desc=
https://dhsprogram.com/search/
https://dhsprogram.com/Research/Featured-Studies.cfm
Самая лучшая в мире база данных демографических обследований по развивающимся странам может кануть в небытие уже завтра или на днях.
Если это случится, то "спасибо" Трампу, будь он неладен.
Выражение "СЛОН в посудной лавке" играет новыми красками, преимущественно чёрными.
Скачивайте всё, что можно.
Эти данные используются в т. ч. ООН для демографического прогнозирования.
По многим странам других данных нет, или они низкого качества.
https://dhsprogram.com/data/available-datasets.cfm
https://www.idhsdata.org/idhs/
https://www.statcompiler.com/en/
https://dhsprogram.com/Countries/index.cfm?show=map#activeType=_all&printStyle=false&mLon=12.8&mLat=11.7&mLev=2&title=Where%20We%20Work&desc=
https://dhsprogram.com/search/
https://dhsprogram.com/Research/Featured-Studies.cfm
Самая лучшая в мире база данных демографических обследований по развивающимся странам может кануть в небытие уже завтра или на днях.
Если это случится, то "спасибо" Трампу, будь он неладен.
Выражение "СЛОН в посудной лавке" играет новыми красками, преимущественно чёрными.
Скачивайте всё, что можно.
Эти данные используются в т. ч. ООН для демографического прогнозирования.
По многим странам других данных нет, или они низкого качества.
Dhsprogram
The DHS Program - Quality information to plan, monitor and improve population, health, and nutrition programs
The DHS Program assists countries worldwide in the collection and use of data to monitor and evaluate population, health, and nutrition programs.
Тренды, тренды и снова тренды. Я про какие-то из них писал в конце декабря и начале января, а какие-то пропустил, много разговоров которые слышу прямо или косвенно:
- Common Digital Infrastructure. Одна из актуальных тем для общественных, исследовательских, некоммерческих и культурных проектов в том что все они зависят от инфраструктуры Big Tech'ов, что немало многих напрягает. В мире сейчас нет проектов по современной инфраструктуре для хранения того что называется digital common goods. Если, к примеру, Вы хотите сделать большой и интересный набор данных или бесплатный открытый инструмент, то надо для этого, или покупать инфраструктуру в одном из очень крупных облаков, или клянчить инфраструктурные ресурсы в рамках программ Big Tech (есть, как минимум, у Amazon) или дороже делать своими силами.
- Демократизация аналитики на данных большого объёма. Новые/старые инструменты Clickhouse, DuckDB, Polars и data lakes разного типа и другие позволяют снизить объёмы хранимых данных, значительно упростить работу с данными большого объёма для тех кто раньше с ними работать не мог. Это такая маленькая-большая революция в работе с данными которая будет всё более превращаться в мэйнстрим по мере появления интерактивных инструментов. Это относится и к языковым моделям которые всё более успешно запускаются на устройствах весьма недорогих и компактных. Я об этом пишу регулярно тут.
#trends #data
- Common Digital Infrastructure. Одна из актуальных тем для общественных, исследовательских, некоммерческих и культурных проектов в том что все они зависят от инфраструктуры Big Tech'ов, что немало многих напрягает. В мире сейчас нет проектов по современной инфраструктуре для хранения того что называется digital common goods. Если, к примеру, Вы хотите сделать большой и интересный набор данных или бесплатный открытый инструмент, то надо для этого, или покупать инфраструктуру в одном из очень крупных облаков, или клянчить инфраструктурные ресурсы в рамках программ Big Tech (есть, как минимум, у Amazon) или дороже делать своими силами.
- Демократизация аналитики на данных большого объёма. Новые/старые инструменты Clickhouse, DuckDB, Polars и data lakes разного типа и другие позволяют снизить объёмы хранимых данных, значительно упростить работу с данными большого объёма для тех кто раньше с ними работать не мог. Это такая маленькая-большая революция в работе с данными которая будет всё более превращаться в мэйнстрим по мере появления интерактивных инструментов. Это относится и к языковым моделям которые всё более успешно запускаются на устройствах весьма недорогих и компактных. Я об этом пишу регулярно тут.
#trends #data
В рубрике интересных наборов данных много датасетов связанных с переходом власти в США, в первую очередь созданных активистами спасающими данные скрываемые/удаляемые администрацией Трампа.
End of term archive [1] совместный проект International Internet Preservation Consortium (IIPC), National Digital Infrastructure and Preservation Program (NDIIPP), Университетов Стенфорда и Джорджа Вашингтона, по архивации всех данных и цифровых материалов при смене президентов в США. Включает коллекции за 2008, 2012, 2016 и 2020 годы. Общий объём датасетов порядка 450TB.
Работа идёт в форме открытого кода [2] и открытых датасетов [3] и сейчас продолжается архивация ресурсов связанных с прошлой администрацией Байдена [4]. Копия данных хранится в Интернет Архиве [5] и, на сегодняшний день, составляет более 582 TB
Другой проект ForeignAssistance dot gov emergency backup [7] архив государственного сайта ForeignAssistance.gov где USAID раскрывали аналитику международной помощи. Он, также, был закрыт во время закрытия USAID. Всё что удалось сохранить автор проекта превратил в наборы данных CSV
Data.gov archive [8] проект по архивации данных из портала Data.gov от Harvard Law School Library и все данные они выложили в открытый каталог данных большого объёма Source Cooperative [9]. Лично я не ожидал что они выложат его именно туда, в Source Cooperative по большей части геоданные, но зато и хранение заточено под облачное хранение в амазоне данных большого объёма. Всего 16TB
Проект Environment Data & Governance Initiative продолжил работу после первого срока Трампа и с января месяца они постоянно сохраняют климатические данные и ресурсы. Подобнее в их блоге [10]
—
А также существует значительное число инициатив меньшего масштаба.
Сохранение данных, цифровых объектов и знаний становится всё более значимой задачей. Кто-то выделяет на него личное время, кто-то ресурсы и сотрудников (проект EOT Archive), кто-то быстро находит финансирование (проект архива Data.gov был профинансирован Фондом Братьев Рокфеллеров).
Ссылки:
[1] https://eotarchive.org
[2] https://github.com/end-of-term
[3] https://eotarchive.org/data/
[4] https://github.com/end-of-term/eot2024
[5] https://archive.org/details/EndofTermWebCrawls
[6] https://archive.org/details/EndOfTerm2024WebCrawls
[7] https://foreignassistance.andrewheiss.com/
[8] https://lil.law.harvard.edu/blog/2025/02/06/announcing-data-gov-archive/
[9] https://source.coop/repositories/harvard-lil/gov-data/description
[10] https://envirodatagov.org/blog/
#digitalpreservation #webarchives #trump #usa
End of term archive [1] совместный проект International Internet Preservation Consortium (IIPC), National Digital Infrastructure and Preservation Program (NDIIPP), Университетов Стенфорда и Джорджа Вашингтона, по архивации всех данных и цифровых материалов при смене президентов в США. Включает коллекции за 2008, 2012, 2016 и 2020 годы. Общий объём датасетов порядка 450TB.
Работа идёт в форме открытого кода [2] и открытых датасетов [3] и сейчас продолжается архивация ресурсов связанных с прошлой администрацией Байдена [4]. Копия данных хранится в Интернет Архиве [5] и, на сегодняшний день, составляет более 582 TB
Другой проект ForeignAssistance dot gov emergency backup [7] архив государственного сайта ForeignAssistance.gov где USAID раскрывали аналитику международной помощи. Он, также, был закрыт во время закрытия USAID. Всё что удалось сохранить автор проекта превратил в наборы данных CSV
Data.gov archive [8] проект по архивации данных из портала Data.gov от Harvard Law School Library и все данные они выложили в открытый каталог данных большого объёма Source Cooperative [9]. Лично я не ожидал что они выложат его именно туда, в Source Cooperative по большей части геоданные, но зато и хранение заточено под облачное хранение в амазоне данных большого объёма. Всего 16TB
Проект Environment Data & Governance Initiative продолжил работу после первого срока Трампа и с января месяца они постоянно сохраняют климатические данные и ресурсы. Подобнее в их блоге [10]
—
А также существует значительное число инициатив меньшего масштаба.
Сохранение данных, цифровых объектов и знаний становится всё более значимой задачей. Кто-то выделяет на него личное время, кто-то ресурсы и сотрудников (проект EOT Archive), кто-то быстро находит финансирование (проект архива Data.gov был профинансирован Фондом Братьев Рокфеллеров).
Ссылки:
[1] https://eotarchive.org
[2] https://github.com/end-of-term
[3] https://eotarchive.org/data/
[4] https://github.com/end-of-term/eot2024
[5] https://archive.org/details/EndofTermWebCrawls
[6] https://archive.org/details/EndOfTerm2024WebCrawls
[7] https://foreignassistance.andrewheiss.com/
[8] https://lil.law.harvard.edu/blog/2025/02/06/announcing-data-gov-archive/
[9] https://source.coop/repositories/harvard-lil/gov-data/description
[10] https://envirodatagov.org/blog/
#digitalpreservation #webarchives #trump #usa
В рубрике интересной визуализации данных DataRepublican [1] проект по визуализации доноров и получателей средств НКО в США и ряд других визуализаций. Можно сказать этакое пересечение Республиканской партии США и дата журналистики, редкое явление, но можно убедиться что реальное. На них ссылаются Wikileaks [2] подсвечивая расходы денег налогоплательщиков США на Internews [3], НКО получавшую существенную долю средств от USAID и поддерживавшее значительную часть СМИ по всему миру.
Что характерно в аккаунте Wikileaks большая волна идёт против USAID [4] с публикациями множества документов подтверждающих что мол они "лицемерные нехорошие ребята" и прямой инструмент мягкой силы США. В общем немного странно видеть такое единодушие WikiLeaks и республиканских блогеров, но допускаю что что-то пропустил.
А теперь про чисто техническое
Сама визуализация на DataRepublican интересная ещё и по тому как она сделана. Я вначале думал что там какая-то графовая база данных внутри, вроде Neo4J и сложные запросы через openCypher, но всё оказалось интереснее. В графах они подгружают на клиента ZIP файлы с CSV файлами внутри, около 7 мегабайт и распаковывают и отображают их через Javascript.
Очень оригинальное решение, я давно такого не видел. Вместо API грузить на клиента большие заархивированные батчи и обрабатывать их там после распаковки.
У них всё это, данные и код, есть в открытом репозитории, можно будет как-нибудь изучить [5]
Ссылки:
[1] https://datarepublican.com
[2] https://x.com/wikileaks/status/1888098131537183170
[3] https://datarepublican.com/expose/?eins=943027961
[4] https://x.com/wikileaks
[5] https://github.com/DataRepublican/datarepublican
#opendata #opensource #wikileaks #dataviz
Что характерно в аккаунте Wikileaks большая волна идёт против USAID [4] с публикациями множества документов подтверждающих что мол они "лицемерные нехорошие ребята" и прямой инструмент мягкой силы США. В общем немного странно видеть такое единодушие WikiLeaks и республиканских блогеров, но допускаю что что-то пропустил.
А теперь про чисто техническое
Сама визуализация на DataRepublican интересная ещё и по тому как она сделана. Я вначале думал что там какая-то графовая база данных внутри, вроде Neo4J и сложные запросы через openCypher, но всё оказалось интереснее. В графах они подгружают на клиента ZIP файлы с CSV файлами внутри, около 7 мегабайт и распаковывают и отображают их через Javascript.
Очень оригинальное решение, я давно такого не видел. Вместо API грузить на клиента большие заархивированные батчи и обрабатывать их там после распаковки.
У них всё это, данные и код, есть в открытом репозитории, можно будет как-нибудь изучить [5]
Ссылки:
[1] https://datarepublican.com
[2] https://x.com/wikileaks/status/1888098131537183170
[3] https://datarepublican.com/expose/?eins=943027961
[4] https://x.com/wikileaks
[5] https://github.com/DataRepublican/datarepublican
#opendata #opensource #wikileaks #dataviz
В рубрике особо интересных наборов данных "ScatSpotter" 2024 -- A Distributed Dog Poop Detection Dataset [1] аннотированный набор данных фотографий собачьих фекалий объёмом в 42 гигабайт. Шутки-шутками, а очень полезный датасет для тех кто проектирует системы идентификации мусора и его уборки😉
Но, что интереснее, сам датасет опубликован только как torrent ссылка magnet и на распределенной файловой системе IPFS.
Его исходный код есть на Github [3], а датасет можно найти на Academic Torrents [4], например, или через IPFS Gateway [5]
Заодно очень хочется порадоваться за исследователей которые могут заниматься изучением собачьих фекалий, а не вот это вот всё.😂
Ссылки:
[1] https://arxiv.org/abs/2412.16473
[2] https://paperswithcode.com/paper/scatspotter-2024-a-distributed-dog-poop
[3] https://github.com/Erotemic/shitspotter
[4] https://academictorrents.com/details/ee8d2c87a39ea9bfe48bef7eb4ca12eb68852c49
[5] https://ipfs.io/ipfs/QmQonrckXZq37ZHDoRGN4xVBkqedvJRgYyzp2aBC5Ujpyp/?autoadapt=0&immediatecontinue=1&magiclibraryconfirmation=0&redirectURL=bafybeiedwp2zvmdyb2c2axrcl455xfbv2mgdbhgkc3dile4dftiimwth2y&requiresorigin=0&web3domain=0
#opendata #datasets #ipfs #torrents
Но, что интереснее, сам датасет опубликован только как torrent ссылка magnet и на распределенной файловой системе IPFS.
Его исходный код есть на Github [3], а датасет можно найти на Academic Torrents [4], например, или через IPFS Gateway [5]
Заодно очень хочется порадоваться за исследователей которые могут заниматься изучением собачьих фекалий, а не вот это вот всё.😂
Ссылки:
[1] https://arxiv.org/abs/2412.16473
[2] https://paperswithcode.com/paper/scatspotter-2024-a-distributed-dog-poop
[3] https://github.com/Erotemic/shitspotter
[4] https://academictorrents.com/details/ee8d2c87a39ea9bfe48bef7eb4ca12eb68852c49
[5] https://ipfs.io/ipfs/QmQonrckXZq37ZHDoRGN4xVBkqedvJRgYyzp2aBC5Ujpyp/?autoadapt=0&immediatecontinue=1&magiclibraryconfirmation=0&redirectURL=bafybeiedwp2zvmdyb2c2axrcl455xfbv2mgdbhgkc3dile4dftiimwth2y&requiresorigin=0&web3domain=0
#opendata #datasets #ipfs #torrents
Про эксперименты с автоматизированным документированием датасетов, вот живой пример документирования связки DuckDB + LLM. На вход файл в формате Parquet, можно увидеть его содержимое. На выходе таблица с размеченными колонками. Некоторые LLM дают очень хороший результат с описанием колонок на основе их названия с пониманием контекста и расшифровкой полей в зависимости от контекста который LLM тоже понимает.
Осталось дообогатить таблицу семантическим типом данных и добавить генерацию документации. На вход был файл дампа Единого структурированного справочника-каталога лекарственных препаратов (ЕСКЛП), а на выходе его описание.
Осталось понять сделать ли это отдельным инструментом или встроить в ранее созданные утилиты undatum или metacrafter которые тут пересекаются
#datadocumentation #dataengineering #datatools
Осталось дообогатить таблицу семантическим типом данных и добавить генерацию документации. На вход был файл дампа Единого структурированного справочника-каталога лекарственных препаратов (ЕСКЛП), а на выходе его описание.
Осталось понять сделать ли это отдельным инструментом или встроить в ранее созданные утилиты undatum или metacrafter которые тут пересекаются
#datadocumentation #dataengineering #datatools
В качестве регулярного напоминания портал российский государственный портал открытых данных data.gov.ru недоступен почти два года, с начала марта 2023 года. Новая версия должна быть открыта в этом году, но почти наверняка не будет содержать всех данных что были ранее.
В 2022 году я делал полный архивный слепок портала и он доступен для выгрузки [1]. Это 13GB в ZIP файле и около 29GB после распаковки.
Ссылки:
[1] https://hubofdata.ru/dataset/datagovru-20220202
#opendata #opengov #russia #datasets #digitalpreservation #webarchives
В 2022 году я делал полный архивный слепок портала и он доступен для выгрузки [1]. Это 13GB в ZIP файле и около 29GB после распаковки.
Ссылки:
[1] https://hubofdata.ru/dataset/datagovru-20220202
#opendata #opengov #russia #datasets #digitalpreservation #webarchives
hubofdata.ru
Архив данных портала открытых данных РФ data.gov.ru на 2 февраля 2022 г - Хаб открытых данных
Слепок всех данных с портала data.gov.ru на 2 февраля 2022 г.
Включает все файлы данных опубликованных на портале
Объём данных после распаковки 29 ГБ.
Включает все файлы данных опубликованных на портале
Объём данных после распаковки 29 ГБ.
В рубрике плохих примеров публикации данных статистические данные и портал открытых данных Германии. В Германии официальный портал открытых данных govdata.de [1] содержит более 130 тысяч наборов данных, в самых разных форматах. Причём очень много геоданных и не только в машиночитаемых форматах, но и просто в виде PDF файлов карт. Среди этих данных около 3 тысяч наборов - это официальная статистика статслужбы Германии DESTATIS [2]. DESTATIS эксплуатирует платформу публикации официальной статистики Genesis [3] на которой доступны статистические индикаторы.
Так вот что важно знать:
1. Там отсутствует публикация данных в общепринятых стандартах вроде SDMX
2. Данные на сайте платформы отдаются в форматах XLSX, CSV и CSV (flat)
3. А через нац портал статистики они ещё и доступны со ссылкой на CSV формат и XML. Например, тут [4].
Так вот CSV файл из Genesis - это не нормальный CSV файл, а в их собственном формате в результате чего для него требуется отдельный парсер. Выглядит он как на этом скриншоте. Автоматически можно обрабатывать, или XML, или CSV формат который CSV (flat) который доступен только с сайте Genesis.
Про проблемы работы с метаданными Genesis и GovData.de я как-нибудь отдельно, скажу лишь что в отличие от ряда других стран ЕС в Германии всё хорошо с масштабами раскрытия данных, но довольно плохо с системным подходом в этой области и в части публикации статистики у меня лично много вопросов, не про методологию, а именно про удобство доступа.
Ссылки:
[1] https://govdata.de
[2] https://www.destatis.de
[3] https://www-genesis.destatis.de/datenbank/online
[4] https://www.govdata.de/suche/daten/bevolkerung-erwerbstatige-erwerbslose-erwerbspersonen-nichterwerbspersonen-aus-hauptwohnsitzhau35dcf
#opendata #germany #datasets
Так вот что важно знать:
1. Там отсутствует публикация данных в общепринятых стандартах вроде SDMX
2. Данные на сайте платформы отдаются в форматах XLSX, CSV и CSV (flat)
3. А через нац портал статистики они ещё и доступны со ссылкой на CSV формат и XML. Например, тут [4].
Так вот CSV файл из Genesis - это не нормальный CSV файл, а в их собственном формате в результате чего для него требуется отдельный парсер. Выглядит он как на этом скриншоте. Автоматически можно обрабатывать, или XML, или CSV формат который CSV (flat) который доступен только с сайте Genesis.
Про проблемы работы с метаданными Genesis и GovData.de я как-нибудь отдельно, скажу лишь что в отличие от ряда других стран ЕС в Германии всё хорошо с масштабами раскрытия данных, но довольно плохо с системным подходом в этой области и в части публикации статистики у меня лично много вопросов, не про методологию, а именно про удобство доступа.
Ссылки:
[1] https://govdata.de
[2] https://www.destatis.de
[3] https://www-genesis.destatis.de/datenbank/online
[4] https://www.govdata.de/suche/daten/bevolkerung-erwerbstatige-erwerbslose-erwerbspersonen-nichterwerbspersonen-aus-hauptwohnsitzhau35dcf
#opendata #germany #datasets