Telegram Group & Telegram Channel
Я тут задумался о KPI которые должны/могут быть у поисковика по данным, если рассматривать его как глобальный, причём эти критерии могут существенно как пересекаться так и давать разные направления усилий.

Например, критерий разнообразности. То что данные данные должны быть разных типов: госданные, открытые геоданные, научные данные, микроданные, данные для ML, точки подключения API и тд. Максимально широкий охват данных по типам. Требует поиска каталогов с разными типами данных и их индексации

Или критерий географической полноты, так чтобы поиск позволял найти данные по условно любой страны из условно любой страны, даже маленьких тихоокеанских государств. Здесь надо обыскать порталы всех стран на предмет каталогов данных и уметь извлекать страновую принадлежность у датасетов из общемировых каталогов.

Или критерий масштаба, когда чем больше данных тем лучше. Тогда надо не гоняться за наибольшим числом порталов данных, где может быть даже по 3-5 датасетов, а целенаправленно индексировать вначале крупнейшие. Чем больше каталог тем приоритетнее он должен быть.

Или критерий количественный, когда важно не то сколько наборов данных, а то сколько источников данных. Обогнать все имеющиеся каталоги порталов данных и быть наиболее полным из них, с поиском не только по датасетам, но и просто по метаданным каталога каталогов.

Или критерий полноты возможностей, когда важно то сколько фасетов можно задать в поиске, так чтобы не только по типу каталога или лицензии, но и по стране, территории, научным дисциплинам, темам, макрорегионам, форматам, и так далее.

Или критерий глубины, когда поиск идёт не только по ключевым полям, но и создаются индексы поиска по организациям публикующим данные, по полям данных. Здесь же находится интеграция с другими источниками, например, базами научного цитирования.

Или критерий скорости, так чтобы средний поисковый запрос шёл не более 100 миллисекунд или меньшее или чуть большее время.

И таких критериев ещё немало. Эти, пожалуй, главные. Чем больше делаешь фокус на один, тем меньше времени и возможности уделить остальным. Но какие-то акценты на развитии необходимы, ключевое тут в том кто пользователи и что им нужно.

Я регулярно буду рассказывать про проект Common Data Index, реестр каталогов данных и открытый поисковик по всем доступным открытым данным в мире.

#opendata #datasets #commondataindex



group-telegram.com/begtin/4978
Create:
Last Update:

Я тут задумался о KPI которые должны/могут быть у поисковика по данным, если рассматривать его как глобальный, причём эти критерии могут существенно как пересекаться так и давать разные направления усилий.

Например, критерий разнообразности. То что данные данные должны быть разных типов: госданные, открытые геоданные, научные данные, микроданные, данные для ML, точки подключения API и тд. Максимально широкий охват данных по типам. Требует поиска каталогов с разными типами данных и их индексации

Или критерий географической полноты, так чтобы поиск позволял найти данные по условно любой страны из условно любой страны, даже маленьких тихоокеанских государств. Здесь надо обыскать порталы всех стран на предмет каталогов данных и уметь извлекать страновую принадлежность у датасетов из общемировых каталогов.

Или критерий масштаба, когда чем больше данных тем лучше. Тогда надо не гоняться за наибольшим числом порталов данных, где может быть даже по 3-5 датасетов, а целенаправленно индексировать вначале крупнейшие. Чем больше каталог тем приоритетнее он должен быть.

Или критерий количественный, когда важно не то сколько наборов данных, а то сколько источников данных. Обогнать все имеющиеся каталоги порталов данных и быть наиболее полным из них, с поиском не только по датасетам, но и просто по метаданным каталога каталогов.

Или критерий полноты возможностей, когда важно то сколько фасетов можно задать в поиске, так чтобы не только по типу каталога или лицензии, но и по стране, территории, научным дисциплинам, темам, макрорегионам, форматам, и так далее.

Или критерий глубины, когда поиск идёт не только по ключевым полям, но и создаются индексы поиска по организациям публикующим данные, по полям данных. Здесь же находится интеграция с другими источниками, например, базами научного цитирования.

Или критерий скорости, так чтобы средний поисковый запрос шёл не более 100 миллисекунд или меньшее или чуть большее время.

И таких критериев ещё немало. Эти, пожалуй, главные. Чем больше делаешь фокус на один, тем меньше времени и возможности уделить остальным. Но какие-то акценты на развитии необходимы, ключевое тут в том кто пользователи и что им нужно.

Я регулярно буду рассказывать про проект Common Data Index, реестр каталогов данных и открытый поисковик по всем доступным открытым данным в мире.

#opendata #datasets #commondataindex

BY Ivan Begtin


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/begtin/4978

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Given the pro-privacy stance of the platform, it’s taken as a given that it’ll be used for a number of reasons, not all of them good. And Telegram has been attached to a fair few scandals related to terrorism, sexual exploitation and crime. Back in 2015, Vox described Telegram as “ISIS’ app of choice,” saying that the platform’s real use is the ability to use channels to distribute material to large groups at once. Telegram has acted to remove public channels affiliated with terrorism, but Pavel Durov reiterated that he had no business snooping on private conversations. Since its launch in 2013, Telegram has grown from a simple messaging app to a broadcast network. Its user base isn’t as vast as WhatsApp’s, and its broadcast platform is a fraction the size of Twitter, but it’s nonetheless showing its use. While Telegram has been embroiled in controversy for much of its life, it has become a vital source of communication during the invasion of Ukraine. But, if all of this is new to you, let us explain, dear friends, what on Earth a Telegram is meant to be, and why you should, or should not, need to care. Oleksandra Matviichuk, a Kyiv-based lawyer and head of the Center for Civil Liberties, called Durov’s position "very weak," and urged concrete improvements. In view of this, the regulator has cautioned investors not to rely on such investment tips / advice received through social media platforms. It has also said investors should exercise utmost caution while taking investment decisions while dealing in the securities market. The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips.
from ms


Telegram Ivan Begtin
FROM American