Telegram Group & Telegram Channel
К вопросу, во многом философскому, но с практическим умыслом, о том что считать данными, а что нет приведу пример в временными рядами. Не для всех, но для многих пользователей данные имеют географическую привязку и работая даже с большой данных стат наблюдений интересуют конкретные страны/страна и временной ряд получаемый из этой большой базы также имеет привязку к одной или двум странам. Но есть и задачи когда надо работать с базой целиком.

На некоторых порталах открытых данных, таких как портал данных ЕЦБ или Банка международных расчётов есть понятие набора данных, их мало и они велики, и есть понятие как раз временного ряда у каждого из которых есть пермалинк. Потребители есть у обоих типов данных. В Dateno эти данные уже частично агрегируются, около 30% карточек в Dateno - это агрегированные временные ряды и это оправдано поскольку пользователи, напомню, ищут чаще в привязке к территории. Но это выходит что отдельный тип данных, который может быть, а может не быть отдельным датасетом. Потому что ещё бывает так что временные ряды публикуют как-то ещё, а не в базе статистики. Что с этим делать для большей понятности? По хорошему разделять наборы данных и временные ряды, дать возможность фильтровать в поиске только их.

Аналогичным образом с геоданными/слоями карт. Слои карт - это чаще всего не файлы, а ссылки на точки подключения к API - ArcGIS или OGC. Их можно рассматривать как наборы данных, и иногда и часто так рассматривают, но, по хорошему, это некоторое отдельное явление, которое так и надо называть "Map layer".

Таких видов данных есть ещё некоторое количество, я же добавлю ещё что кроме них есть и более сложные случаи. Например, фиды новостей RSS и ATOM. Они данные или нет? ATOM фидов довольно много, только на европейском портале данных их более 141 тысячи, поскольку они являются одним из способов экспорта и доступа к геоданным на платформах на базе Geonetwork и ряда других.

ATOM Feed'ы также используются в каталогах данных на базе Thredds для доступа к метеорологическим данным.

Но, также их условно бесконечное число разбросано по интернету, как для доступа к новостям на сайтах, так и ко многим другим типам контента.

Можно ли выделять ATOM/RSS как отдельную категорию API и рассматривать их как данные и индексировать, например, нам в Dateno?

Ответ на этот вопрос содержится в контрвопросах - А зачем? А кому это нужно?

Один из важнейших критериев отнесения цифровых объектов/артефактов в к данным - это их востребованность целевой аудиторией тех кто с данными работает: дата инженеров, дата сайентистов, дата аналитиков, геоаналитиков, статистиков, экономистов, бизнес аналитиков и так далее.

И таких примеров очень много и всё больше возникает в процесс обнаружения новых, потенциально интересных источников данных.

P.S. Мне давно уже пора завести рубрику #whatisdata, пожалуй, буду помечать будущие размышления на эту тему именно ей

#whatisdata #thoughts #dateno #data



group-telegram.com/begtin/6216
Create:
Last Update:

К вопросу, во многом философскому, но с практическим умыслом, о том что считать данными, а что нет приведу пример в временными рядами. Не для всех, но для многих пользователей данные имеют географическую привязку и работая даже с большой данных стат наблюдений интересуют конкретные страны/страна и временной ряд получаемый из этой большой базы также имеет привязку к одной или двум странам. Но есть и задачи когда надо работать с базой целиком.

На некоторых порталах открытых данных, таких как портал данных ЕЦБ или Банка международных расчётов есть понятие набора данных, их мало и они велики, и есть понятие как раз временного ряда у каждого из которых есть пермалинк. Потребители есть у обоих типов данных. В Dateno эти данные уже частично агрегируются, около 30% карточек в Dateno - это агрегированные временные ряды и это оправдано поскольку пользователи, напомню, ищут чаще в привязке к территории. Но это выходит что отдельный тип данных, который может быть, а может не быть отдельным датасетом. Потому что ещё бывает так что временные ряды публикуют как-то ещё, а не в базе статистики. Что с этим делать для большей понятности? По хорошему разделять наборы данных и временные ряды, дать возможность фильтровать в поиске только их.

Аналогичным образом с геоданными/слоями карт. Слои карт - это чаще всего не файлы, а ссылки на точки подключения к API - ArcGIS или OGC. Их можно рассматривать как наборы данных, и иногда и часто так рассматривают, но, по хорошему, это некоторое отдельное явление, которое так и надо называть "Map layer".

Таких видов данных есть ещё некоторое количество, я же добавлю ещё что кроме них есть и более сложные случаи. Например, фиды новостей RSS и ATOM. Они данные или нет? ATOM фидов довольно много, только на европейском портале данных их более 141 тысячи, поскольку они являются одним из способов экспорта и доступа к геоданным на платформах на базе Geonetwork и ряда других.

ATOM Feed'ы также используются в каталогах данных на базе Thredds для доступа к метеорологическим данным.

Но, также их условно бесконечное число разбросано по интернету, как для доступа к новостям на сайтах, так и ко многим другим типам контента.

Можно ли выделять ATOM/RSS как отдельную категорию API и рассматривать их как данные и индексировать, например, нам в Dateno?

Ответ на этот вопрос содержится в контрвопросах - А зачем? А кому это нужно?

Один из важнейших критериев отнесения цифровых объектов/артефактов в к данным - это их востребованность целевой аудиторией тех кто с данными работает: дата инженеров, дата сайентистов, дата аналитиков, геоаналитиков, статистиков, экономистов, бизнес аналитиков и так далее.

И таких примеров очень много и всё больше возникает в процесс обнаружения новых, потенциально интересных источников данных.

P.S. Мне давно уже пора завести рубрику #whatisdata, пожалуй, буду помечать будущие размышления на эту тему именно ей

#whatisdata #thoughts #dateno #data

BY Ivan Begtin


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/begtin/6216

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Individual messages can be fully encrypted. But the user has to turn on that function. It's not automatic, as it is on Signal and WhatsApp. The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips. Update March 8, 2022: EFF has clarified that Channels and Groups are not fully encrypted, end-to-end, updated our post to link to Telegram’s FAQ for Cloud and Secret chats, updated to clarify that auto-delete is available for group and channel admins, and added some additional links. "There is a significant risk of insider threat or hacking of Telegram systems that could expose all of these chats to the Russian government," said Eva Galperin with the Electronic Frontier Foundation, which has called for Telegram to improve its privacy practices. Although some channels have been removed, the curation process is considered opaque and insufficient by analysts.
from fr


Telegram Ivan Begtin
FROM American