Telegram Group & Telegram Channel
Продолжая подводить итоги года, для меня лично в этом году важнейшим проектом был и останется в 2025 году - Dateno, поисковик по датасетам по всему миру который наша команда строила в 2024 году. Сейчас там 19 миллионов наборов данных, скоро будет больше, равно как и больше возможностей которые поисковик будет предоставлять.

Dateno, отчасти, возник спонтанно. Мне давно хотелось сделать большой проект на весь мир по открытым данным, но первоначально амбиции были только создать универсальный реестр всех дата-ресурсов (реестр каталогов данных), а далее так получилось что на их основе оказалось не так сложно построить поисковую машину.

За 2024 год удалось:
- проиндексировать более 19 миллионов датасетов
- подготовить харвестеры для более чем 15 типов порталов открытых данных, индикаторов и геоданных
- реализовать API доступное пользователям Dateno
- собрать внушительную базу пользователей
- подготовить всё необходимое для индексации ещё нескольких десятков миллионов наборов данных
- обогатить собранные карточки датасетов метаданными о странах, тематиках, правах на использование

Тут есть чем гордиться и много работы ещё предстоит.

1. Больше социально-экономических данных
.
Это касается индикаторов, временных рядов и иных данных которые чаще всего публикуются на порталах открытых данных и порталах индикаторов. Сейчас из запланированных крупных каталогов данных проиндексированы только около половины и дальше их будет больше.

Сейчас у Dateno есть небольшой уклон в такого рода данные поскольку они одни из наиболее востребованных и он может вырасти по мере индексации новых источников.

2. Значительно увеличить число наборов данных
Это очень простая задача если не беспокоиться о качестве данных, достаточно загрузить карточки датасетов из нескольких научных агрегаторов и это сразу добавить +20 миллионов наборов данных. Но, качество метаданных там ограничено только описанием, без ссылок на ресурсы к которым можно было бы обращаться напрямую. Такие датасеты несут куда меньше пользы для пользователей, хотя и из них в основном состоят поисковые индексы Google Dataset Search (GDS), OpenAIRE, BASE и ряда других поисковиков. Карточки датасетов без ресурсов позволяют резко нарастить индекс, но наличие ресурсов у карточки - это одна из наших внутренних метрик качества поискового индекса. Этот баланс качества и количества важен и он один из главных сдерживающих факторов роста индекса Dateno, тем не менее рост этот неизбежен.

3. Больше интеграционных возможностей

У Dateno уже есть API которым можно воспользоваться и далее это API будет развиваться в сторону его интеграции с инструментами для дата аналитиков и дата инженеров. Интеграция и API - это важные атрибуты любого сервиса, особенно для работы с данными. Невозможно всё придумать и сделать силами только одной команды и API позволяет другим улучшать и развивать свои продукты.

4. Больше возможностей

Сейчас Dateno позволяет только искать данные, но не проводить с ними какие-либо операции и это изменится. Не сразу и я не буду заранее говорить какие именно возможности появятся, но они будут.

Наша цель чтобы Dateno стал регулярным инструментом для каждого дата аналитика, дата инженера и дата сайентиста, так что работы ещё много)

#opendata #dateno #datasets #yearinreview



group-telegram.com/begtin/6316
Create:
Last Update:

Продолжая подводить итоги года, для меня лично в этом году важнейшим проектом был и останется в 2025 году - Dateno, поисковик по датасетам по всему миру который наша команда строила в 2024 году. Сейчас там 19 миллионов наборов данных, скоро будет больше, равно как и больше возможностей которые поисковик будет предоставлять.

Dateno, отчасти, возник спонтанно. Мне давно хотелось сделать большой проект на весь мир по открытым данным, но первоначально амбиции были только создать универсальный реестр всех дата-ресурсов (реестр каталогов данных), а далее так получилось что на их основе оказалось не так сложно построить поисковую машину.

За 2024 год удалось:
- проиндексировать более 19 миллионов датасетов
- подготовить харвестеры для более чем 15 типов порталов открытых данных, индикаторов и геоданных
- реализовать API доступное пользователям Dateno
- собрать внушительную базу пользователей
- подготовить всё необходимое для индексации ещё нескольких десятков миллионов наборов данных
- обогатить собранные карточки датасетов метаданными о странах, тематиках, правах на использование

Тут есть чем гордиться и много работы ещё предстоит.

1. Больше социально-экономических данных
.
Это касается индикаторов, временных рядов и иных данных которые чаще всего публикуются на порталах открытых данных и порталах индикаторов. Сейчас из запланированных крупных каталогов данных проиндексированы только около половины и дальше их будет больше.

Сейчас у Dateno есть небольшой уклон в такого рода данные поскольку они одни из наиболее востребованных и он может вырасти по мере индексации новых источников.

2. Значительно увеличить число наборов данных
Это очень простая задача если не беспокоиться о качестве данных, достаточно загрузить карточки датасетов из нескольких научных агрегаторов и это сразу добавить +20 миллионов наборов данных. Но, качество метаданных там ограничено только описанием, без ссылок на ресурсы к которым можно было бы обращаться напрямую. Такие датасеты несут куда меньше пользы для пользователей, хотя и из них в основном состоят поисковые индексы Google Dataset Search (GDS), OpenAIRE, BASE и ряда других поисковиков. Карточки датасетов без ресурсов позволяют резко нарастить индекс, но наличие ресурсов у карточки - это одна из наших внутренних метрик качества поискового индекса. Этот баланс качества и количества важен и он один из главных сдерживающих факторов роста индекса Dateno, тем не менее рост этот неизбежен.

3. Больше интеграционных возможностей

У Dateno уже есть API которым можно воспользоваться и далее это API будет развиваться в сторону его интеграции с инструментами для дата аналитиков и дата инженеров. Интеграция и API - это важные атрибуты любого сервиса, особенно для работы с данными. Невозможно всё придумать и сделать силами только одной команды и API позволяет другим улучшать и развивать свои продукты.

4. Больше возможностей

Сейчас Dateno позволяет только искать данные, но не проводить с ними какие-либо операции и это изменится. Не сразу и я не буду заранее говорить какие именно возможности появятся, но они будут.

Наша цель чтобы Dateno стал регулярным инструментом для каждого дата аналитика, дата инженера и дата сайентиста, так что работы ещё много)

#opendata #dateno #datasets #yearinreview

BY Ivan Begtin


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/begtin/6316

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

READ MORE "The inflation fire was already hot and now with war-driven inflation added to the mix, it will grow even hotter, setting off a scramble by the world’s central banks to pull back their stimulus earlier than expected," Chris Rupkey, chief economist at FWDBONDS, wrote in an email. "A spike in inflation rates has preceded economic recessions historically and this time prices have soared to levels that once again pose a threat to growth." That hurt tech stocks. For the past few weeks, the 10-year yield has traded between 1.72% and 2%, as traders moved into the bond for safety when Russia headlines were ugly—and out of it when headlines improved. Now, the yield is touching its pandemic-era high. If the yield breaks above that level, that could signal that it’s on a sustainable path higher. Higher long-dated bond yields make future profits less valuable—and many tech companies are valued on the basis of profits forecast for many years in the future. But Kliuchnikov, the Ukranian now in France, said he will use Signal or WhatsApp for sensitive conversations, but questions around privacy on Telegram do not give him pause when it comes to sharing information about the war. Given the pro-privacy stance of the platform, it’s taken as a given that it’ll be used for a number of reasons, not all of them good. And Telegram has been attached to a fair few scandals related to terrorism, sexual exploitation and crime. Back in 2015, Vox described Telegram as “ISIS’ app of choice,” saying that the platform’s real use is the ability to use channels to distribute material to large groups at once. Telegram has acted to remove public channels affiliated with terrorism, but Pavel Durov reiterated that he had no business snooping on private conversations.
from es


Telegram Ivan Begtin
FROM American