Notice: file_put_contents(): Write of 2728 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 8192 of 10920 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
Ivan Begtin | Telegram Webview: begtin/4978 -
Telegram Group & Telegram Channel
Я тут задумался о KPI которые должны/могут быть у поисковика по данным, если рассматривать его как глобальный, причём эти критерии могут существенно как пересекаться так и давать разные направления усилий.

Например, критерий разнообразности. То что данные данные должны быть разных типов: госданные, открытые геоданные, научные данные, микроданные, данные для ML, точки подключения API и тд. Максимально широкий охват данных по типам. Требует поиска каталогов с разными типами данных и их индексации

Или критерий географической полноты, так чтобы поиск позволял найти данные по условно любой страны из условно любой страны, даже маленьких тихоокеанских государств. Здесь надо обыскать порталы всех стран на предмет каталогов данных и уметь извлекать страновую принадлежность у датасетов из общемировых каталогов.

Или критерий масштаба, когда чем больше данных тем лучше. Тогда надо не гоняться за наибольшим числом порталов данных, где может быть даже по 3-5 датасетов, а целенаправленно индексировать вначале крупнейшие. Чем больше каталог тем приоритетнее он должен быть.

Или критерий количественный, когда важно не то сколько наборов данных, а то сколько источников данных. Обогнать все имеющиеся каталоги порталов данных и быть наиболее полным из них, с поиском не только по датасетам, но и просто по метаданным каталога каталогов.

Или критерий полноты возможностей, когда важно то сколько фасетов можно задать в поиске, так чтобы не только по типу каталога или лицензии, но и по стране, территории, научным дисциплинам, темам, макрорегионам, форматам, и так далее.

Или критерий глубины, когда поиск идёт не только по ключевым полям, но и создаются индексы поиска по организациям публикующим данные, по полям данных. Здесь же находится интеграция с другими источниками, например, базами научного цитирования.

Или критерий скорости, так чтобы средний поисковый запрос шёл не более 100 миллисекунд или меньшее или чуть большее время.

И таких критериев ещё немало. Эти, пожалуй, главные. Чем больше делаешь фокус на один, тем меньше времени и возможности уделить остальным. Но какие-то акценты на развитии необходимы, ключевое тут в том кто пользователи и что им нужно.

Я регулярно буду рассказывать про проект Common Data Index, реестр каталогов данных и открытый поисковик по всем доступным открытым данным в мире.

#opendata #datasets #commondataindex



group-telegram.com/begtin/4978
Create:
Last Update:

Я тут задумался о KPI которые должны/могут быть у поисковика по данным, если рассматривать его как глобальный, причём эти критерии могут существенно как пересекаться так и давать разные направления усилий.

Например, критерий разнообразности. То что данные данные должны быть разных типов: госданные, открытые геоданные, научные данные, микроданные, данные для ML, точки подключения API и тд. Максимально широкий охват данных по типам. Требует поиска каталогов с разными типами данных и их индексации

Или критерий географической полноты, так чтобы поиск позволял найти данные по условно любой страны из условно любой страны, даже маленьких тихоокеанских государств. Здесь надо обыскать порталы всех стран на предмет каталогов данных и уметь извлекать страновую принадлежность у датасетов из общемировых каталогов.

Или критерий масштаба, когда чем больше данных тем лучше. Тогда надо не гоняться за наибольшим числом порталов данных, где может быть даже по 3-5 датасетов, а целенаправленно индексировать вначале крупнейшие. Чем больше каталог тем приоритетнее он должен быть.

Или критерий количественный, когда важно не то сколько наборов данных, а то сколько источников данных. Обогнать все имеющиеся каталоги порталов данных и быть наиболее полным из них, с поиском не только по датасетам, но и просто по метаданным каталога каталогов.

Или критерий полноты возможностей, когда важно то сколько фасетов можно задать в поиске, так чтобы не только по типу каталога или лицензии, но и по стране, территории, научным дисциплинам, темам, макрорегионам, форматам, и так далее.

Или критерий глубины, когда поиск идёт не только по ключевым полям, но и создаются индексы поиска по организациям публикующим данные, по полям данных. Здесь же находится интеграция с другими источниками, например, базами научного цитирования.

Или критерий скорости, так чтобы средний поисковый запрос шёл не более 100 миллисекунд или меньшее или чуть большее время.

И таких критериев ещё немало. Эти, пожалуй, главные. Чем больше делаешь фокус на один, тем меньше времени и возможности уделить остальным. Но какие-то акценты на развитии необходимы, ключевое тут в том кто пользователи и что им нужно.

Я регулярно буду рассказывать про проект Common Data Index, реестр каталогов данных и открытый поисковик по всем доступным открытым данным в мире.

#opendata #datasets #commondataindex

BY Ivan Begtin


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/begtin/4978

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

A Russian Telegram channel with over 700,000 followers is spreading disinformation about Russia's invasion of Ukraine under the guise of providing "objective information" and fact-checking fake news. Its influence extends beyond the platform, with major Russian publications, government officials, and journalists citing the page's posts. In addition, Telegram's architecture limits the ability to slow the spread of false information: the lack of a central public feed, and the fact that comments are easily disabled in channels, reduce the space for public pushback. READ MORE Under the Sebi Act, the regulator has the power to carry out search and seizure of books, registers, documents including electronics and digital devices from any person associated with the securities market. At this point, however, Durov had already been working on Telegram with his brother, and further planned a mobile-first social network with an explicit focus on anti-censorship. Later in April, he told TechCrunch that he had left Russia and had “no plans to go back,” saying that the nation was currently “incompatible with internet business at the moment.” He added later that he was looking for a country that matched his libertarian ideals to base his next startup.
from br


Telegram Ivan Begtin
FROM American