Telegram Group & Telegram Channel
Давно хочу написать на эту тему, но она какая-то огромная, о доступных данных в США. Сейчас в Dateno проиндексировано по США ~1.2 миллиона датасетов [1] из которых более 300 тысяч с портала data.gov. Это много, но есть и побольше.

Для сравнения по Германии есть 2.7 миллионов наборов данных [2].

Почему так? Потому что в Германии есть несколько государственных каталогов геоданных где они сверхдетально нарезали данные по малым сообществам. То есть это скорее про форму упаковки данных, чем про реальный их объём.

Но есть и другие факторы

Первый фактор в том что в США из-за их конфедеративной модели государства очень много данных находится в ведении отдельных штатов, а также городов и муниципалитетов (counties), в особенности это касается геоданных которых в США очень много и они очень рассеяны по разным сайтам

Второй фактор в том что многие дата продукты госорганами в США делаются ещё до того как сам термин открытые данные появился и до сих пор публикуются очень консервативно, выгрузками на FTP серверах. Соответственно чтобы превратить их в датасеты надо их правильно индексировать обогащая метаданными которые реконструировать из таблиц на веб сайтах, форм поиска и запроса и тд.

Наглядный пример, данные TIGER [2] (Topologically Integrated Geographic Encoding and Referencing database) информационной системы Бюро переписи США. Это десятки тысяч, может быть даже больше, файлов с геоданными с детализацией до городов и муниципалитетов и ещё и за разные годы. Они доступны через FTP сервер службы. [4] Но лишь в малой степени проиндексированы на национальном портале data.gov

Таких примеров много, это и база Sciencebase [5] USGS (Геологической службы США), и большие объёмы научных данных созданных и опубликованных в репозиториях финансируемых NSF и многое другое.

Я бы сказал если в каких то странах пр-ва пытаются завышать число реальных датасетов на национальных дата порталах, то в США ровно наоборот. Есть ощущение что команда data.gov совершенное не спешит его развивать, хотя от 2 до 5 миллионов наборов данных они могли бы добавить туда без феноменальных усилий.

В общем, лентяи;) Даже австралийцы сделали агрегатор и поисковик по госданным на базе движка Magda.

Ссылки:
[1] https://dateno.io/search?refinementList%5Bsource.countries.name%5D%5B0%5D=United%20States
[2] https://dateno.io/search?refinementList%5Bsource.countries.name%5D%5B0%5D=Germany
[3] https://tigerweb.geo.census.gov
[4] https://www2.census.gov/geo/tiger/
[5] https://www.sciencebase.gov/

#opendata #usa #geodata #datasets



group-telegram.com/begtin/6251
Create:
Last Update:

Давно хочу написать на эту тему, но она какая-то огромная, о доступных данных в США. Сейчас в Dateno проиндексировано по США ~1.2 миллиона датасетов [1] из которых более 300 тысяч с портала data.gov. Это много, но есть и побольше.

Для сравнения по Германии есть 2.7 миллионов наборов данных [2].

Почему так? Потому что в Германии есть несколько государственных каталогов геоданных где они сверхдетально нарезали данные по малым сообществам. То есть это скорее про форму упаковки данных, чем про реальный их объём.

Но есть и другие факторы

Первый фактор в том что в США из-за их конфедеративной модели государства очень много данных находится в ведении отдельных штатов, а также городов и муниципалитетов (counties), в особенности это касается геоданных которых в США очень много и они очень рассеяны по разным сайтам

Второй фактор в том что многие дата продукты госорганами в США делаются ещё до того как сам термин открытые данные появился и до сих пор публикуются очень консервативно, выгрузками на FTP серверах. Соответственно чтобы превратить их в датасеты надо их правильно индексировать обогащая метаданными которые реконструировать из таблиц на веб сайтах, форм поиска и запроса и тд.

Наглядный пример, данные TIGER [2] (Topologically Integrated Geographic Encoding and Referencing database) информационной системы Бюро переписи США. Это десятки тысяч, может быть даже больше, файлов с геоданными с детализацией до городов и муниципалитетов и ещё и за разные годы. Они доступны через FTP сервер службы. [4] Но лишь в малой степени проиндексированы на национальном портале data.gov

Таких примеров много, это и база Sciencebase [5] USGS (Геологической службы США), и большие объёмы научных данных созданных и опубликованных в репозиториях финансируемых NSF и многое другое.

Я бы сказал если в каких то странах пр-ва пытаются завышать число реальных датасетов на национальных дата порталах, то в США ровно наоборот. Есть ощущение что команда data.gov совершенное не спешит его развивать, хотя от 2 до 5 миллионов наборов данных они могли бы добавить туда без феноменальных усилий.

В общем, лентяи;) Даже австралийцы сделали агрегатор и поисковик по госданным на базе движка Magda.

Ссылки:
[1] https://dateno.io/search?refinementList%5Bsource.countries.name%5D%5B0%5D=United%20States
[2] https://dateno.io/search?refinementList%5Bsource.countries.name%5D%5B0%5D=Germany
[3] https://tigerweb.geo.census.gov
[4] https://www2.census.gov/geo/tiger/
[5] https://www.sciencebase.gov/

#opendata #usa #geodata #datasets

BY Ivan Begtin




Share with your friend now:
group-telegram.com/begtin/6251

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

And indeed, volatility has been a hallmark of the market environment so far in 2022, with the S&P 500 still down more than 10% for the year-to-date after first sliding into a correction last month. The CBOE Volatility Index, or VIX, has held at a lofty level of more than 30. The picture was mixed overseas. Hong Kong’s Hang Seng Index fell 1.6%, under pressure from U.S. regulatory scrutiny on New York-listed Chinese companies. Stocks were more buoyant in Europe, where Frankfurt’s DAX surged 1.4%. "Someone posing as a Ukrainian citizen just joins the chat and starts spreading misinformation, or gathers data, like the location of shelters," Tsekhanovska said, noting how false messages have urged Ukrainians to turn off their phones at a specific time of night, citing cybersafety. Perpetrators of these scams will create a public group on Telegram to promote these investment packages that are usually accompanied by fake testimonies and sometimes advertised as being Shariah-compliant. Interested investors will be asked to directly message the representatives to begin investing in the various investment packages offered. But Telegram says people want to keep their chat history when they get a new phone, and they like having a data backup that will sync their chats across multiple devices. And that is why they let people choose whether they want their messages to be encrypted or not. When not turned on, though, chats are stored on Telegram's services, which are scattered throughout the world. But it has "disclosed 0 bytes of user data to third parties, including governments," Telegram states on its website.
from ca


Telegram Ivan Begtin
FROM American