Telegram Group & Telegram Channel
Про метрики качества данных и дата продуктов.

Я ранее писал про метрики качества в Dateno и что количество проиндексированных датасетов является важной метрикой, но далеко не единственной. Кроме него важно ещё то какие именно датасеты и их представленность - это метрика разнообразия данных, ещё важна метрика разнообразия источников данных, а то есть чтобы вся база не состояла только из научных данных или только из статистики. Ещё есть метрики глубины охвата, качества метаданных, частоты обновления и тд.

И, наконец, важная лично для меня метрика - это метрика географического охвата. Одна из изначальных идей была в том что Dateno Должно охватывать вообще все страны и территории мира. А то есть данные должны быть не только по крупнейшим развитым странам (это особенность научных каталогов данных), но и по малым развивающимся странам.

И вот, ура-ура, в последнем обновлении Dateno эта цель была окончательно достигнута. В Dateno сейчас есть датасеты привязанные ко всем странам и зависимым территориям в мире, по крайней мере при проверке по реестру стран Всемирного банка.

Как это получилось? Главное - это глобальные базы статистики международных организаций. Даже если у страны нет веб-сайта и доступа в Интернет, статистические службы взаимодействуют с ООН и статистика о них накапливается в глобальных базах индикаторов. Дальше вопрос только сбора этих данных и привязывания к странам.

Второй фактор - это то что у многих развивающихся стран нет порталов открытых данных, но есть геосервера и геопорталы которые и проиндексированы в Dateno.
Геоданных в развивающихся странах тоже мало, но больше чем открытых данных.

Итого по каждой стране есть, как минимум, данные индикаторов. Эти данные настолько хороши и полны, насколько они полны в данных первоисточников. Поэтому теперь метрика полноты данных в Dateno для меня звучит как географическое разнообразие данных не являющихся индикаторами.

И по этому критерию у нас нет датасетов по 38 странам, все они наименее развитые, или островные или иные микрогосударства. По многим из них есть каталоги данных в реестре, но пока они не проиндексированы поскольку, или нестандартны, или блокируют внешний доступ или с ними что-то ещё не так.

При этом список можно сократить и охватить почти все страны привязать к ним датасеты из других глобальных каталогов вроде Humanitarian Data Exchange или датасетов наук о земле, которые привязаны де-факто не к юрисдикации, а к инструментам/командам наблюдения и публикации научной работы.

#opendata #dateno #data #datasets



group-telegram.com/begtin/6206
Create:
Last Update:

Про метрики качества данных и дата продуктов.

Я ранее писал про метрики качества в Dateno и что количество проиндексированных датасетов является важной метрикой, но далеко не единственной. Кроме него важно ещё то какие именно датасеты и их представленность - это метрика разнообразия данных, ещё важна метрика разнообразия источников данных, а то есть чтобы вся база не состояла только из научных данных или только из статистики. Ещё есть метрики глубины охвата, качества метаданных, частоты обновления и тд.

И, наконец, важная лично для меня метрика - это метрика географического охвата. Одна из изначальных идей была в том что Dateno Должно охватывать вообще все страны и территории мира. А то есть данные должны быть не только по крупнейшим развитым странам (это особенность научных каталогов данных), но и по малым развивающимся странам.

И вот, ура-ура, в последнем обновлении Dateno эта цель была окончательно достигнута. В Dateno сейчас есть датасеты привязанные ко всем странам и зависимым территориям в мире, по крайней мере при проверке по реестру стран Всемирного банка.

Как это получилось? Главное - это глобальные базы статистики международных организаций. Даже если у страны нет веб-сайта и доступа в Интернет, статистические службы взаимодействуют с ООН и статистика о них накапливается в глобальных базах индикаторов. Дальше вопрос только сбора этих данных и привязывания к странам.

Второй фактор - это то что у многих развивающихся стран нет порталов открытых данных, но есть геосервера и геопорталы которые и проиндексированы в Dateno.
Геоданных в развивающихся странах тоже мало, но больше чем открытых данных.

Итого по каждой стране есть, как минимум, данные индикаторов. Эти данные настолько хороши и полны, насколько они полны в данных первоисточников. Поэтому теперь метрика полноты данных в Dateno для меня звучит как географическое разнообразие данных не являющихся индикаторами.

И по этому критерию у нас нет датасетов по 38 странам, все они наименее развитые, или островные или иные микрогосударства. По многим из них есть каталоги данных в реестре, но пока они не проиндексированы поскольку, или нестандартны, или блокируют внешний доступ или с ними что-то ещё не так.

При этом список можно сократить и охватить почти все страны привязать к ним датасеты из других глобальных каталогов вроде Humanitarian Data Exchange или датасетов наук о земле, которые привязаны де-факто не к юрисдикации, а к инструментам/командам наблюдения и публикации научной работы.

#opendata #dateno #data #datasets

BY Ivan Begtin


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/begtin/6206

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"He has to start being more proactive and to find a real solution to this situation, not stay in standby without interfering. It's a very irresponsible position from the owner of Telegram," she said. Stocks closed in the red Friday as investors weighed upbeat remarks from Russian President Vladimir Putin about diplomatic discussions with Ukraine against a weaker-than-expected print on U.S. consumer sentiment. Update March 8, 2022: EFF has clarified that Channels and Groups are not fully encrypted, end-to-end, updated our post to link to Telegram’s FAQ for Cloud and Secret chats, updated to clarify that auto-delete is available for group and channel admins, and added some additional links. The War on Fakes channel has repeatedly attempted to push conspiracies that footage from Ukraine is somehow being falsified. One post on the channel from February 24 claimed without evidence that a widely viewed photo of a Ukrainian woman injured in an airstrike in the city of Chuhuiv was doctored and that the woman was seen in a different photo days later without injuries. The post, which has over 600,000 views, also baselessly claimed that the woman's blood was actually makeup or grape juice. Russians and Ukrainians are both prolific users of Telegram. They rely on the app for channels that act as newsfeeds, group chats (both public and private), and one-to-one communication. Since the Russian invasion of Ukraine, Telegram has remained an important lifeline for both Russians and Ukrainians, as a way of staying aware of the latest news and keeping in touch with loved ones.
from tr


Telegram Ivan Begtin
FROM American