Telegram Group & Telegram Channel
Давно хочу написать на эту тему, но она какая-то огромная, о доступных данных в США. Сейчас в Dateno проиндексировано по США ~1.2 миллиона датасетов [1] из которых более 300 тысяч с портала data.gov. Это много, но есть и побольше.

Для сравнения по Германии есть 2.7 миллионов наборов данных [2].

Почему так? Потому что в Германии есть несколько государственных каталогов геоданных где они сверхдетально нарезали данные по малым сообществам. То есть это скорее про форму упаковки данных, чем про реальный их объём.

Но есть и другие факторы

Первый фактор в том что в США из-за их конфедеративной модели государства очень много данных находится в ведении отдельных штатов, а также городов и муниципалитетов (counties), в особенности это касается геоданных которых в США очень много и они очень рассеяны по разным сайтам

Второй фактор в том что многие дата продукты госорганами в США делаются ещё до того как сам термин открытые данные появился и до сих пор публикуются очень консервативно, выгрузками на FTP серверах. Соответственно чтобы превратить их в датасеты надо их правильно индексировать обогащая метаданными которые реконструировать из таблиц на веб сайтах, форм поиска и запроса и тд.

Наглядный пример, данные TIGER [2] (Topologically Integrated Geographic Encoding and Referencing database) информационной системы Бюро переписи США. Это десятки тысяч, может быть даже больше, файлов с геоданными с детализацией до городов и муниципалитетов и ещё и за разные годы. Они доступны через FTP сервер службы. [4] Но лишь в малой степени проиндексированы на национальном портале data.gov

Таких примеров много, это и база Sciencebase [5] USGS (Геологической службы США), и большие объёмы научных данных созданных и опубликованных в репозиториях финансируемых NSF и многое другое.

Я бы сказал если в каких то странах пр-ва пытаются завышать число реальных датасетов на национальных дата порталах, то в США ровно наоборот. Есть ощущение что команда data.gov совершенное не спешит его развивать, хотя от 2 до 5 миллионов наборов данных они могли бы добавить туда без феноменальных усилий.

В общем, лентяи;) Даже австралийцы сделали агрегатор и поисковик по госданным на базе движка Magda.

Ссылки:
[1] https://dateno.io/search?refinementList%5Bsource.countries.name%5D%5B0%5D=United%20States
[2] https://dateno.io/search?refinementList%5Bsource.countries.name%5D%5B0%5D=Germany
[3] https://tigerweb.geo.census.gov
[4] https://www2.census.gov/geo/tiger/
[5] https://www.sciencebase.gov/

#opendata #usa #geodata #datasets



group-telegram.com/begtin/6251
Create:
Last Update:

Давно хочу написать на эту тему, но она какая-то огромная, о доступных данных в США. Сейчас в Dateno проиндексировано по США ~1.2 миллиона датасетов [1] из которых более 300 тысяч с портала data.gov. Это много, но есть и побольше.

Для сравнения по Германии есть 2.7 миллионов наборов данных [2].

Почему так? Потому что в Германии есть несколько государственных каталогов геоданных где они сверхдетально нарезали данные по малым сообществам. То есть это скорее про форму упаковки данных, чем про реальный их объём.

Но есть и другие факторы

Первый фактор в том что в США из-за их конфедеративной модели государства очень много данных находится в ведении отдельных штатов, а также городов и муниципалитетов (counties), в особенности это касается геоданных которых в США очень много и они очень рассеяны по разным сайтам

Второй фактор в том что многие дата продукты госорганами в США делаются ещё до того как сам термин открытые данные появился и до сих пор публикуются очень консервативно, выгрузками на FTP серверах. Соответственно чтобы превратить их в датасеты надо их правильно индексировать обогащая метаданными которые реконструировать из таблиц на веб сайтах, форм поиска и запроса и тд.

Наглядный пример, данные TIGER [2] (Topologically Integrated Geographic Encoding and Referencing database) информационной системы Бюро переписи США. Это десятки тысяч, может быть даже больше, файлов с геоданными с детализацией до городов и муниципалитетов и ещё и за разные годы. Они доступны через FTP сервер службы. [4] Но лишь в малой степени проиндексированы на национальном портале data.gov

Таких примеров много, это и база Sciencebase [5] USGS (Геологической службы США), и большие объёмы научных данных созданных и опубликованных в репозиториях финансируемых NSF и многое другое.

Я бы сказал если в каких то странах пр-ва пытаются завышать число реальных датасетов на национальных дата порталах, то в США ровно наоборот. Есть ощущение что команда data.gov совершенное не спешит его развивать, хотя от 2 до 5 миллионов наборов данных они могли бы добавить туда без феноменальных усилий.

В общем, лентяи;) Даже австралийцы сделали агрегатор и поисковик по госданным на базе движка Magda.

Ссылки:
[1] https://dateno.io/search?refinementList%5Bsource.countries.name%5D%5B0%5D=United%20States
[2] https://dateno.io/search?refinementList%5Bsource.countries.name%5D%5B0%5D=Germany
[3] https://tigerweb.geo.census.gov
[4] https://www2.census.gov/geo/tiger/
[5] https://www.sciencebase.gov/

#opendata #usa #geodata #datasets

BY Ivan Begtin




Share with your friend now:
group-telegram.com/begtin/6251

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

As such, the SC would like to remind investors to always exercise caution when evaluating investment opportunities, especially those promising unrealistically high returns with little or no risk. Investors should also never deposit money into someone’s personal bank account if instructed. In February 2014, the Ukrainian people ousted pro-Russian president Viktor Yanukovych, prompting Russia to invade and annex the Crimean peninsula. By the start of April, Pavel Durov had given his notice, with TechCrunch saying at the time that the CEO had resisted pressure to suppress pages criticizing the Russian government. The channel appears to be part of the broader information war that has developed following Russia's invasion of Ukraine. The Kremlin has paid Russian TikTok influencers to push propaganda, according to a Vice News investigation, while ProPublica found that fake Russian fact check videos had been viewed over a million times on Telegram. Additionally, investors are often instructed to deposit monies into personal bank accounts of individuals who claim to represent a legitimate entity, and/or into an unrelated corporate account. To lend credence and to lure unsuspecting victims, perpetrators usually claim that their entity and/or the investment schemes are approved by financial authorities. Also in the latest update is the ability for users to create a unique @username from the Settings page, providing others with an easy way to contact them via Search or their t.me/username link without sharing their phone number.
from br


Telegram Ivan Begtin
FROM American