group-telegram.com/begtin/6251
Last Update:
Давно хочу написать на эту тему, но она какая-то огромная, о доступных данных в США. Сейчас в Dateno проиндексировано по США ~1.2 миллиона датасетов [1] из которых более 300 тысяч с портала data.gov. Это много, но есть и побольше.
Для сравнения по Германии есть 2.7 миллионов наборов данных [2].
Почему так? Потому что в Германии есть несколько государственных каталогов геоданных где они сверхдетально нарезали данные по малым сообществам. То есть это скорее про форму упаковки данных, чем про реальный их объём.
Но есть и другие факторы
Первый фактор в том что в США из-за их конфедеративной модели государства очень много данных находится в ведении отдельных штатов, а также городов и муниципалитетов (counties), в особенности это касается геоданных которых в США очень много и они очень рассеяны по разным сайтам
Второй фактор в том что многие дата продукты госорганами в США делаются ещё до того как сам термин открытые данные появился и до сих пор публикуются очень консервативно, выгрузками на FTP серверах. Соответственно чтобы превратить их в датасеты надо их правильно индексировать обогащая метаданными которые реконструировать из таблиц на веб сайтах, форм поиска и запроса и тд.
Наглядный пример, данные TIGER [2] (Topologically Integrated Geographic Encoding and Referencing database) информационной системы Бюро переписи США. Это десятки тысяч, может быть даже больше, файлов с геоданными с детализацией до городов и муниципалитетов и ещё и за разные годы. Они доступны через FTP сервер службы. [4] Но лишь в малой степени проиндексированы на национальном портале data.gov
Таких примеров много, это и база Sciencebase [5] USGS (Геологической службы США), и большие объёмы научных данных созданных и опубликованных в репозиториях финансируемых NSF и многое другое.
Я бы сказал если в каких то странах пр-ва пытаются завышать число реальных датасетов на национальных дата порталах, то в США ровно наоборот. Есть ощущение что команда data.gov совершенное не спешит его развивать, хотя от 2 до 5 миллионов наборов данных они могли бы добавить туда без феноменальных усилий.
В общем, лентяи;) Даже австралийцы сделали агрегатор и поисковик по госданным на базе движка Magda.
Ссылки:
[1] https://dateno.io/search?refinementList%5Bsource.countries.name%5D%5B0%5D=United%20States
[2] https://dateno.io/search?refinementList%5Bsource.countries.name%5D%5B0%5D=Germany
[3] https://tigerweb.geo.census.gov
[4] https://www2.census.gov/geo/tiger/
[5] https://www.sciencebase.gov/
#opendata #usa #geodata #datasets
BY Ivan Begtin
Share with your friend now:
group-telegram.com/begtin/6251