Telegram Group Search
У кого есть микроданные Выборочного наблюдения репродуктивных планов населения за 2012 год? Могли бы вы ими поделиться, если они есть ? Росстат не отдал эти данные, сославшись на то, что программное обеспечение было зарубежным, и после перехода на отечественное они потеряли доступ к микроданным
В рубрике как это работает у них, а могло бы не только у них про большие коллекции академических геоданных и карт.

В мире есть несколько больших коллекций исторических карт, как растровых, так и векторных значительная часть этих коллекций создана на базе портала Geoblacklight, например, Harvard Geospatial Library где эти карты преобразованы в GeoTIFF и другие форматы георастра или даже в векторные карты. К примеру, вот карта региона Черного моря в 1705 году.

Или вот немецкая карта Сибири 18 века на портале георесурсов и цифровых карт библиотеки Принстона. Она даже не преобразована в GeoTIFF и лежит там как есть просто картинкой.

Найти аналогичным образом размеченные карты по России сложно, хотя, казалось бы, они должны быть.

Так где они есть?
1й источник - это Госкаталог (goskatalog.ru) где можно найти самые разные карты имперских губерний

2-й источник - это НЭБ с большим числом исторических карт

а 3-й, совершенно не неожиданно, но Archive.org

Если поискать по интернету, то найдутся и ещё источники.

Но с Россией, в каком-то смысле, проще, а если искать те же исторические карты Армении, то искать их надо и в российских и в международных источниках.

Институциональные репозитории таких исторических геоданных - это большое общественное благо для всех проектов в области цифровой гуманитаристики.

#opendata #geodata #history #dh #maps
С конца ноября НКО OpenOwnership закрывают [1] свой проект Open Ownership Register [2] где была собрана база из 30 миллионов записей о конечных владельцах компаний.

Лично я так до конца и не понял почему они это делают, но в анонсе события указывается на сложности поддержания технической инфраструктуры и на фокусе на доступности данных, а не продукта основанного на данных.

Подозреваю что основной причиной было то что больших успехов достигнуть не удалось и кроме реестра бенефициаров Великобритании, всё остальное очень скромное по актуальности и по объёму.

Я когда-то списывался с ними по поводу данных по Армении, которые заявлялись как очень хорошие, а по факту там была информация всего по 8 компаниям и не то чтобы хорошо подготовленная.

В любом случае, хотя сайт у реестра уже плохо работает, раздел с выгрузкой данных всё ещё доступен [3] и обещают что он останется.

Текущая база - это 3.7ГБ файл JSON lines сжатый GZIP.

Для тех кто изучает подобные данные на практике будет очень полезно.

Ссылки:
[1] https://www.openownership.org/en/news/evolving-from-the-open-ownership-register-to-increase-our-impact/
[2] https://register.openownership.org
[3] https://register.openownership.org/download

#opendata #uk #transparency #datasets #data
Полезный свежий документ в форме отчёта по результатам мероприятия Commons Clause [1] от Open Knowledge Foundation про текущую повестку открытости технологий, кода, данных и тд. Оно примерно то же о чём я регулярно пишу, жаль мало примеров, но в части проблематики всё точно изложено.

В целом это всё, конечно, цифровой социализм в чистом виде с повесткой anti-bigtech, но многое изложено весьма правильно.

Приведу оттуда выдержку со страницей про ИИ, а вообще могу порекомендовать прочесть документ целиком.

Главное же опасение которое я давно слышу это AI eats Commons, ИИ пожирает общественное благо. Потому что ключевые бенефициары ИИ моделей приобретают от них столь много что это резко демотивирует создателей общественного блага (Commons).

Ссылки:
[1] https://blog.okfn.org/2024/11/18/report-open-movements-commons-causes/

#opendata #data #openmovement #ai
В рубрике как это устроено у них я уже несколько раз писал про проект DBNomics [1] от французского think tank'а Cepremap и поддерживаемый пр-вом Франции.

Это огромный каталог, в основном, макроэкономических показателей из 92 источников, и в виде 35 тысяч датасетов и 1.4 миллиона временных рядов.

Реально огромная база индикаторов из всех ключевых источников. Чем-то похоже на то что у нас в Dateno, с той лишь разницей что в Dateno индикаторы - это лишь часть индексируемых данных и индексируются индикаторы вообще все, а не только экономические, но число источников пока и больше и меньше. Больше потому что сбор из стандартизированных источников, а меньше потому что основные данные не в них а в крупных больших базах индикаторов для которых надо писать отдельные парсеры.

Тем не менее, в нашей трактовке то что в DBNomics называется временным рядом, у нас скорее это датасет. Возможно даже, нам надо добавить отдельную типизацию данных по типам для большей точности.

Глядя на DBNomics всегда возникает вопрос, надо ли его индексировать или рассматривать только как источник информации о каталогах данных? Потому что он не первоисточник и по мере индексации первичных источников будет много дублей. А с другой стороны, данные в нём представлены куда более удобно и с ними легче работать.

До конца года хочется подключить к Dateno ещё хотя бы 5-6 миллионов наборов данных, что не так сложно, как хочется максимальной пользы от этого.

А у DBNomics также, есть открытый код, кстати, хорошее API и вообще это скорее дата продукт полноценный чем просто статистический портал.

Ссылки:
[1] https://db.nomics.world

#opendata #statistics #indicators #france #dateno
Ещё пример того как это работает у них Репозиторий открытых данных Национального банка РК [1], явно совсем недавно открытый.

Из плюсов:
- это не два-три показателя, а несколько десятков. Есть надежда что и дальше их прибавится
- данные машиночитаемы, отдаются в CSV и JSON форматах
- есть API [2] с возможностью получить данные, также в JSON
- много региональных данных, по областям Республики Казахстан

А в качестве дружелюбного фидбека добавлю:
1. Было бы хорошо указать условия распространения данных, например лицензию CC-BY или аналог, главное чтобы условия были.
2. Сейчас сайт интерактивен, у конкретного раздела или показателя нет постоянных ссылок. Это может выглядеть смазливо при показе начальству, но для пользователей скорее неудобно.
3. В продолжение про постоянные ссылки, при их наличии можно добавлять экспорт и описание метаданных в Schema.org Dataset. Тогда их сможет проиндексировать Google Dataset Search, а если сделать экспорт в DCAT, то и Dateno, впрочем Dateno скоро сможет и по Schema.org индексировать тоже.
4. Стоит сразу добавить экспорт данных в формате Parquet, это несложно, и современно и вообще хорошо.
5. Сейчас по каждому показателю данные экспортируются динамично. Это неэффективно и лишняя нагрузка на сервер. Есть смысл не только автоматически генерировать статичные датасеты, но и давать возможность получать их пермалинками, тогда данные можно легко грузить в базу данных по прямой ссылке на CSV или JSON файл

В остальном это большой прогресс для РК.

Ссылки:
[1] https://data.nationalbank.kz
[2] https://data.nationalbank.kz/api-docs

#opendata #kazakhstan #datasets #datacatalogs
Вдогонку к порталу данных Нацбанка Казахстана, сделаю краткий обзор состояния открытых данных в Республике Казахстан.

Во первых, конечно, начать стоит с профиля страны [1] у нас в реестре Dateno там сейчас 38 каталогов данных и вскоре пополнится большим их числом.

Что можно сказать про Казахстан?
1. Много порталов геоданных, причём многие на каких-то собственных разработках, но есть и на открытом коде. В частности проект Национальная инфраструктура пространственных данных Республики Казахстан [2] работает на GeoNode и содержит 183 набора данных. На самом деле материалов там должно быть куда больше, ранее там всё было общедоступно, но теперь требуется авторизация с электронной подписью. Ещё ряд геопорталов доступны в виде серверов ArcGIS и Geoserver
2. Портал открытых данных РК [3], к сожалению, не открытых. Раньше для любой операции требовалась авторизация, а сейчас просто ограничивают выгрузку по 100 записей (!) из набора данных. Пожалуй худшая из практик в РК по публикации данных
3. Water resources data portal [4] портал данных водных ресурсов который делают в стартапе Ozen-M. Данных там немного, но датасеты хорошо организованы и все опубликованы на Github.
4. Статистическая система ТАЛДАУ [5] статслужбы РК, что удобно - наличие API и есть экспорт данных. Правда только в Excel. Выглядит работоспособно, хотя и довольно консервативно.
5. Почти нет открытых научных данных. У университетов есть развёрнутые репозитории публикаций, но датасеты среди них упоминаются только в репозитории научных результатов Университета Назарбаева и только единожды [6]. В целом такая же картина во многих постсоветских странах, не только в РК
6. Оказывается была/есть небольшая активность и группа Open Data Kazakhstan [7] на Github, но не очень масштабная и небольшими всплесками.
7. То что я знаю так то что в рамках Smart Data Ukimet в Казахстане экспериментируют сейчас с развертыванием австралийского проекта Magda [8], но пока это из пушки по воробьям, потому что Magda тяжёлый продукт и оправдывает себя на десятках тысяч наборов данных. Публичного анонса этого я не видел, поэтому прямой ссылки не даю

Какое-то время назад мы с коллегами думали про создание портала/порталов данных по странам Центральной Азии, но в итоге с запуском Dateno сфокусировались на индексации всех данных туда и сейчас в Dateno более 34 тысяч наборов данных классифицированных как относящихся к Казахстану [9]. Все они относятся к открытым индикаторам из международных баз данных и к геоданным. По мере того как мы улучшим инструменты геоклассификации, из других источников добавится ещё 5-6 тысяч наборов данных.

Данных о территории РК, также, много в тех глобальных каталогах научных данных о Земле которые мы ещё пока не проиндексировали.

Ссылки:
[1] https://dateno.io/registry/country/KZ/
[2] https://map.gov.kz
[3] https://data.egov.kz
[4] https://data.qiot.kz/en
[5] https://taldau.stat.gov.kz
[6] https://research.nu.edu.kz/en/publications/?type=%2Fdk%2Fatira%2Fpure%2Fresearchoutput%2Fresearchoutputtypes%2Fnontextual%2Fdatabase&nofollow=true
[7] https://github.com/open-data-kazakhstan/
[8] https://magda.io
[9] https://dateno.io/search?refinementList%5Bsource.countries.name%5D%5B0%5D=Kazakhstan

#opendata #data #kazakhstan #datasets #dateno
В рубрике как это устроено у них статистический портал Канады [1] фактически превращённый в портал открытых данных. В общей сложности более 12 тысяч наборов данных из которых 11.5 тысяч - это табличные данные индикаторов с возможностью их выгрузки в форматах CSV и SDMX, а также через открытое API [2].

Характерная особенность что их аналитические тексты - это де факто data stories в форме лонгридов к которым всегда приложены таблицы с данными в их же системе [3].

То есть даже те кто приходит почитать текст имеют возможность сразу открыть таблицу и изучить данные.

Внутри всё работает на SDMX движке и есть возможность работать с API основанном на SDMX для подключения к данным. [4]

В принципе, это иллюстрация одного из трендов развития статистических продуктов в сторону профессиональных стандартов работы с данными, в данном случае SDMX.

Ссылки:
[1] https://www150.statcan.gc.ca/n1/en/type/data?MM=1
[2] https://www.statcan.gc.ca/en/developers?HPA=1
[3] https://www150.statcan.gc.ca/n1/daily-quotidien/241003/dq241003a-eng.htm
[4] https://www150.statcan.gc.ca/t1/wds/sdmx/statcan/rest/data/DF_17100005/1.1.1

#statistics #canada #opendata #sdmx #api #data
Foursquare вот буквально только что выложили огромный набор данных в 100 миллионов точек интереса (POI) [1] [2], скачать его можно через Amazon S3 хранилище [3] в виде множества parquet файлов.

Данные охватывают 247 стран и территорий [4], например, по Армении 7425 точек (очень мало!), по Польше 3,553,098 (❗️), по России меньше чем по Польше, всего 3,125,954. А более всего, ожидаемо, по США - 22 миллиона точек. Это на апрель 2023 года и по всей базе Places, а конкретно этот набор надо изучить, что там внутри.

Всё оформлено как полноценный дата продукт, с документацией, примерами SQL запросов, API, ответами на вопросы. Необычна лицензия, Apache 2.0, она в целом для кода, а не для данных.

Ссылки:
[1] https://location.foursquare.com/resources/blog/products/foursquare-open-source-places-a-new-foundational-dataset-for-the-geospatial-community/
[2] https://opensource.foursquare.com/os-places/
[3] https://docs.foursquare.com/data-products/docs/access-fsq-os-places
[4] https://docs.foursquare.com/data-products/docs/supported-countries

#opendata #datasets #foursquare #geodata #spatial #poi
Forwarded from Open Data Armenia
[EN] Armenian Points of interests (POI) data from Foursquare OS Places [1] is a new dataset in the Open Data Armenia data catalogue. This data is extracted from the huge OS Places dataset previously published by Foursquare [2].

The dataset contains just under 16 thousand locations across the country, most of the place names are in English, Russian and Armenian. The most places are marked in Yerevan, but not only.

Data in Parquet format is a special format for data popular in Data Science, it is most convenient to work with it using such tools as DuckDB, Pandas and Polars.

If someone needs this data in other formats, please write, we will add it.

[RU] Armenian Points of interests (POI) data from Foursquare OS Places [1] новый набор данных в каталоге данных Open Data Armenia. Эти данные извлечены из огромного датасета OS Places ранее опубликованного Foursquare [2].

Датасет содержит чуть менее 16 тысяч точек по стране, большая часть названий мест на английском, русском и армянском языках. Более всего мест отмечено в Ереване, но не только.

Данные в формате Parquet, это специальный формат для данных популярный в Data Science, с ним удобнее всего работать с помощью таких инструментов как DuckDB, Pandas и Polars.

Если кому-то понадобятся эти данные в других форматах, напишите, добавим.

Ссылки:
[1] https://data.opendata.am/dataset/am-os-places
[2] https://www.group-telegram.com/opendataam/131

#opendata #datasets #geodata #armenia #foursquare
В рубрике как это устроено у них проекты по созданию пространств данных в Испании (Dataspaces) [1]. На них выделено 500 миллионов евро из них крупнейшая статья расходов это Kit Espacios de Datos, инициатива по вовлечению бизнеса в экономику данных с компенсацией им в виде безвозвратных субсидий того что они будут:
- использовать принятые стандарты и разрабатывать онтологии;
- подключать свои информационные системы в пространства данных (data spaces)
- публиковать данные в открытом доступе;

Это всё про перевод данных из частного блага в общественное и про денежную мотивацию бизнеса к обмену данными и вовлечению в экономику данных.

Ссылки:
[1] https://datos.gob.es/es/noticia/plan-de-impulso-de-los-espacios-de-datos-sectoriales

#opendata #datasets #spain #dataspaces #datamarket
Про метрики качества данных и дата продуктов.

Я ранее писал про метрики качества в Dateno и что количество проиндексированных датасетов является важной метрикой, но далеко не единственной. Кроме него важно ещё то какие именно датасеты и их представленность - это метрика разнообразия данных, ещё важна метрика разнообразия источников данных, а то есть чтобы вся база не состояла только из научных данных или только из статистики. Ещё есть метрики глубины охвата, качества метаданных, частоты обновления и тд.

И, наконец, важная лично для меня метрика - это метрика географического охвата. Одна из изначальных идей была в том что Dateno Должно охватывать вообще все страны и территории мира. А то есть данные должны быть не только по крупнейшим развитым странам (это особенность научных каталогов данных), но и по малым развивающимся странам.

И вот, ура-ура, в последнем обновлении Dateno эта цель была окончательно достигнута. В Dateno сейчас есть датасеты привязанные ко всем странам и зависимым территориям в мире, по крайней мере при проверке по реестру стран Всемирного банка.

Как это получилось? Главное - это глобальные базы статистики международных организаций. Даже если у страны нет веб-сайта и доступа в Интернет, статистические службы взаимодействуют с ООН и статистика о них накапливается в глобальных базах индикаторов. Дальше вопрос только сбора этих данных и привязывания к странам.

Второй фактор - это то что у многих развивающихся стран нет порталов открытых данных, но есть геосервера и геопорталы которые и проиндексированы в Dateno.
Геоданных в развивающихся странах тоже мало, но больше чем открытых данных.

Итого по каждой стране есть, как минимум, данные индикаторов. Эти данные настолько хороши и полны, насколько они полны в данных первоисточников. Поэтому теперь метрика полноты данных в Dateno для меня звучит как географическое разнообразие данных не являющихся индикаторами.

И по этому критерию у нас нет датасетов по 38 странам, все они наименее развитые, или островные или иные микрогосударства. По многим из них есть каталоги данных в реестре, но пока они не проиндексированы поскольку, или нестандартны, или блокируют внешний доступ или с ними что-то ещё не так.

При этом список можно сократить и охватить почти все страны привязать к ним датасеты из других глобальных каталогов вроде Humanitarian Data Exchange или датасетов наук о земле, которые привязаны де-факто не к юрисдикации, а к инструментам/командам наблюдения и публикации научной работы.

#opendata #dateno #data #datasets
2025/01/04 21:49:01
Back to Top
HTML Embed Code: