Telegram Group & Telegram Channel
Продолжая подводить итоги года, для меня лично в этом году важнейшим проектом был и останется в 2025 году - Dateno, поисковик по датасетам по всему миру который наша команда строила в 2024 году. Сейчас там 19 миллионов наборов данных, скоро будет больше, равно как и больше возможностей которые поисковик будет предоставлять.

Dateno, отчасти, возник спонтанно. Мне давно хотелось сделать большой проект на весь мир по открытым данным, но первоначально амбиции были только создать универсальный реестр всех дата-ресурсов (реестр каталогов данных), а далее так получилось что на их основе оказалось не так сложно построить поисковую машину.

За 2024 год удалось:
- проиндексировать более 19 миллионов датасетов
- подготовить харвестеры для более чем 15 типов порталов открытых данных, индикаторов и геоданных
- реализовать API доступное пользователям Dateno
- собрать внушительную базу пользователей
- подготовить всё необходимое для индексации ещё нескольких десятков миллионов наборов данных
- обогатить собранные карточки датасетов метаданными о странах, тематиках, правах на использование

Тут есть чем гордиться и много работы ещё предстоит.

1. Больше социально-экономических данных
.
Это касается индикаторов, временных рядов и иных данных которые чаще всего публикуются на порталах открытых данных и порталах индикаторов. Сейчас из запланированных крупных каталогов данных проиндексированы только около половины и дальше их будет больше.

Сейчас у Dateno есть небольшой уклон в такого рода данные поскольку они одни из наиболее востребованных и он может вырасти по мере индексации новых источников.

2. Значительно увеличить число наборов данных
Это очень простая задача если не беспокоиться о качестве данных, достаточно загрузить карточки датасетов из нескольких научных агрегаторов и это сразу добавить +20 миллионов наборов данных. Но, качество метаданных там ограничено только описанием, без ссылок на ресурсы к которым можно было бы обращаться напрямую. Такие датасеты несут куда меньше пользы для пользователей, хотя и из них в основном состоят поисковые индексы Google Dataset Search (GDS), OpenAIRE, BASE и ряда других поисковиков. Карточки датасетов без ресурсов позволяют резко нарастить индекс, но наличие ресурсов у карточки - это одна из наших внутренних метрик качества поискового индекса. Этот баланс качества и количества важен и он один из главных сдерживающих факторов роста индекса Dateno, тем не менее рост этот неизбежен.

3. Больше интеграционных возможностей

У Dateno уже есть API которым можно воспользоваться и далее это API будет развиваться в сторону его интеграции с инструментами для дата аналитиков и дата инженеров. Интеграция и API - это важные атрибуты любого сервиса, особенно для работы с данными. Невозможно всё придумать и сделать силами только одной команды и API позволяет другим улучшать и развивать свои продукты.

4. Больше возможностей

Сейчас Dateno позволяет только искать данные, но не проводить с ними какие-либо операции и это изменится. Не сразу и я не буду заранее говорить какие именно возможности появятся, но они будут.

Наша цель чтобы Dateno стал регулярным инструментом для каждого дата аналитика, дата инженера и дата сайентиста, так что работы ещё много)

#opendata #dateno #datasets #yearinreview



group-telegram.com/begtin/6316
Create:
Last Update:

Продолжая подводить итоги года, для меня лично в этом году важнейшим проектом был и останется в 2025 году - Dateno, поисковик по датасетам по всему миру который наша команда строила в 2024 году. Сейчас там 19 миллионов наборов данных, скоро будет больше, равно как и больше возможностей которые поисковик будет предоставлять.

Dateno, отчасти, возник спонтанно. Мне давно хотелось сделать большой проект на весь мир по открытым данным, но первоначально амбиции были только создать универсальный реестр всех дата-ресурсов (реестр каталогов данных), а далее так получилось что на их основе оказалось не так сложно построить поисковую машину.

За 2024 год удалось:
- проиндексировать более 19 миллионов датасетов
- подготовить харвестеры для более чем 15 типов порталов открытых данных, индикаторов и геоданных
- реализовать API доступное пользователям Dateno
- собрать внушительную базу пользователей
- подготовить всё необходимое для индексации ещё нескольких десятков миллионов наборов данных
- обогатить собранные карточки датасетов метаданными о странах, тематиках, правах на использование

Тут есть чем гордиться и много работы ещё предстоит.

1. Больше социально-экономических данных
.
Это касается индикаторов, временных рядов и иных данных которые чаще всего публикуются на порталах открытых данных и порталах индикаторов. Сейчас из запланированных крупных каталогов данных проиндексированы только около половины и дальше их будет больше.

Сейчас у Dateno есть небольшой уклон в такого рода данные поскольку они одни из наиболее востребованных и он может вырасти по мере индексации новых источников.

2. Значительно увеличить число наборов данных
Это очень простая задача если не беспокоиться о качестве данных, достаточно загрузить карточки датасетов из нескольких научных агрегаторов и это сразу добавить +20 миллионов наборов данных. Но, качество метаданных там ограничено только описанием, без ссылок на ресурсы к которым можно было бы обращаться напрямую. Такие датасеты несут куда меньше пользы для пользователей, хотя и из них в основном состоят поисковые индексы Google Dataset Search (GDS), OpenAIRE, BASE и ряда других поисковиков. Карточки датасетов без ресурсов позволяют резко нарастить индекс, но наличие ресурсов у карточки - это одна из наших внутренних метрик качества поискового индекса. Этот баланс качества и количества важен и он один из главных сдерживающих факторов роста индекса Dateno, тем не менее рост этот неизбежен.

3. Больше интеграционных возможностей

У Dateno уже есть API которым можно воспользоваться и далее это API будет развиваться в сторону его интеграции с инструментами для дата аналитиков и дата инженеров. Интеграция и API - это важные атрибуты любого сервиса, особенно для работы с данными. Невозможно всё придумать и сделать силами только одной команды и API позволяет другим улучшать и развивать свои продукты.

4. Больше возможностей

Сейчас Dateno позволяет только искать данные, но не проводить с ними какие-либо операции и это изменится. Не сразу и я не буду заранее говорить какие именно возможности появятся, но они будут.

Наша цель чтобы Dateno стал регулярным инструментом для каждого дата аналитика, дата инженера и дата сайентиста, так что работы ещё много)

#opendata #dateno #datasets #yearinreview

BY Ivan Begtin


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/begtin/6316

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Perpetrators of these scams will create a public group on Telegram to promote these investment packages that are usually accompanied by fake testimonies and sometimes advertised as being Shariah-compliant. Interested investors will be asked to directly message the representatives to begin investing in the various investment packages offered. So, uh, whenever I hear about Telegram, it’s always in relation to something bad. What gives? The SC urges the public to refer to the SC’s I nvestor Alert List before investing. The list contains details of unauthorised websites, investment products, companies and individuals. Members of the public who suspect that they have been approached by unauthorised firms or individuals offering schemes that promise unrealistic returns Groups are also not fully encrypted, end-to-end. This includes private groups. Private groups cannot be seen by other Telegram users, but Telegram itself can see the groups and all of the communications that you have in them. All of the same risks and warnings about channels can be applied to groups. What distinguishes the app from competitors is its use of what's known as channels: Public or private feeds of photos and videos that can be set up by one person or an organization. The channels have become popular with on-the-ground journalists, aid workers and Ukrainian President Volodymyr Zelenskyy, who broadcasts on a Telegram channel. The channels can be followed by an unlimited number of people. Unlike Facebook, Twitter and other popular social networks, there is no advertising on Telegram and the flow of information is not driven by an algorithm.
from ar


Telegram Ivan Begtin
FROM American