Telegram Group & Telegram Channel
К вопросу, во многом философскому, но с практическим умыслом, о том что считать данными, а что нет приведу пример в временными рядами. Не для всех, но для многих пользователей данные имеют географическую привязку и работая даже с большой данных стат наблюдений интересуют конкретные страны/страна и временной ряд получаемый из этой большой базы также имеет привязку к одной или двум странам. Но есть и задачи когда надо работать с базой целиком.

На некоторых порталах открытых данных, таких как портал данных ЕЦБ или Банка международных расчётов есть понятие набора данных, их мало и они велики, и есть понятие как раз временного ряда у каждого из которых есть пермалинк. Потребители есть у обоих типов данных. В Dateno эти данные уже частично агрегируются, около 30% карточек в Dateno - это агрегированные временные ряды и это оправдано поскольку пользователи, напомню, ищут чаще в привязке к территории. Но это выходит что отдельный тип данных, который может быть, а может не быть отдельным датасетом. Потому что ещё бывает так что временные ряды публикуют как-то ещё, а не в базе статистики. Что с этим делать для большей понятности? По хорошему разделять наборы данных и временные ряды, дать возможность фильтровать в поиске только их.

Аналогичным образом с геоданными/слоями карт. Слои карт - это чаще всего не файлы, а ссылки на точки подключения к API - ArcGIS или OGC. Их можно рассматривать как наборы данных, и иногда и часто так рассматривают, но, по хорошему, это некоторое отдельное явление, которое так и надо называть "Map layer".

Таких видов данных есть ещё некоторое количество, я же добавлю ещё что кроме них есть и более сложные случаи. Например, фиды новостей RSS и ATOM. Они данные или нет? ATOM фидов довольно много, только на европейском портале данных их более 141 тысячи, поскольку они являются одним из способов экспорта и доступа к геоданным на платформах на базе Geonetwork и ряда других.

ATOM Feed'ы также используются в каталогах данных на базе Thredds для доступа к метеорологическим данным.

Но, также их условно бесконечное число разбросано по интернету, как для доступа к новостям на сайтах, так и ко многим другим типам контента.

Можно ли выделять ATOM/RSS как отдельную категорию API и рассматривать их как данные и индексировать, например, нам в Dateno?

Ответ на этот вопрос содержится в контрвопросах - А зачем? А кому это нужно?

Один из важнейших критериев отнесения цифровых объектов/артефактов в к данным - это их востребованность целевой аудиторией тех кто с данными работает: дата инженеров, дата сайентистов, дата аналитиков, геоаналитиков, статистиков, экономистов, бизнес аналитиков и так далее.

И таких примеров очень много и всё больше возникает в процесс обнаружения новых, потенциально интересных источников данных.

P.S. Мне давно уже пора завести рубрику #whatisdata, пожалуй, буду помечать будущие размышления на эту тему именно ей

#whatisdata #thoughts #dateno #data



group-telegram.com/begtin/6216
Create:
Last Update:

К вопросу, во многом философскому, но с практическим умыслом, о том что считать данными, а что нет приведу пример в временными рядами. Не для всех, но для многих пользователей данные имеют географическую привязку и работая даже с большой данных стат наблюдений интересуют конкретные страны/страна и временной ряд получаемый из этой большой базы также имеет привязку к одной или двум странам. Но есть и задачи когда надо работать с базой целиком.

На некоторых порталах открытых данных, таких как портал данных ЕЦБ или Банка международных расчётов есть понятие набора данных, их мало и они велики, и есть понятие как раз временного ряда у каждого из которых есть пермалинк. Потребители есть у обоих типов данных. В Dateno эти данные уже частично агрегируются, около 30% карточек в Dateno - это агрегированные временные ряды и это оправдано поскольку пользователи, напомню, ищут чаще в привязке к территории. Но это выходит что отдельный тип данных, который может быть, а может не быть отдельным датасетом. Потому что ещё бывает так что временные ряды публикуют как-то ещё, а не в базе статистики. Что с этим делать для большей понятности? По хорошему разделять наборы данных и временные ряды, дать возможность фильтровать в поиске только их.

Аналогичным образом с геоданными/слоями карт. Слои карт - это чаще всего не файлы, а ссылки на точки подключения к API - ArcGIS или OGC. Их можно рассматривать как наборы данных, и иногда и часто так рассматривают, но, по хорошему, это некоторое отдельное явление, которое так и надо называть "Map layer".

Таких видов данных есть ещё некоторое количество, я же добавлю ещё что кроме них есть и более сложные случаи. Например, фиды новостей RSS и ATOM. Они данные или нет? ATOM фидов довольно много, только на европейском портале данных их более 141 тысячи, поскольку они являются одним из способов экспорта и доступа к геоданным на платформах на базе Geonetwork и ряда других.

ATOM Feed'ы также используются в каталогах данных на базе Thredds для доступа к метеорологическим данным.

Но, также их условно бесконечное число разбросано по интернету, как для доступа к новостям на сайтах, так и ко многим другим типам контента.

Можно ли выделять ATOM/RSS как отдельную категорию API и рассматривать их как данные и индексировать, например, нам в Dateno?

Ответ на этот вопрос содержится в контрвопросах - А зачем? А кому это нужно?

Один из важнейших критериев отнесения цифровых объектов/артефактов в к данным - это их востребованность целевой аудиторией тех кто с данными работает: дата инженеров, дата сайентистов, дата аналитиков, геоаналитиков, статистиков, экономистов, бизнес аналитиков и так далее.

И таких примеров очень много и всё больше возникает в процесс обнаружения новых, потенциально интересных источников данных.

P.S. Мне давно уже пора завести рубрику #whatisdata, пожалуй, буду помечать будущие размышления на эту тему именно ей

#whatisdata #thoughts #dateno #data

BY Ivan Begtin


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/begtin/6216

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Crude oil prices edged higher after tumbling on Thursday, when U.S. West Texas intermediate slid back below $110 per barrel after topping as much as $130 a barrel in recent sessions. Still, gas prices at the pump rose to fresh highs. The company maintains that it cannot act against individual or group chats, which are “private amongst their participants,” but it will respond to requests in relation to sticker sets, channels and bots which are publicly available. During the invasion of Ukraine, Pavel Durov has wrestled with this issue a lot more prominently than he has before. Channels like Donbass Insider and Bellum Acta, as reported by Foreign Policy, started pumping out pro-Russian propaganda as the invasion began. So much so that the Ukrainian National Security and Defense Council issued a statement labeling which accounts are Russian-backed. Ukrainian officials, in potential violation of the Geneva Convention, have shared imagery of dead and captured Russian soldiers on the platform. "There is a significant risk of insider threat or hacking of Telegram systems that could expose all of these chats to the Russian government," said Eva Galperin with the Electronic Frontier Foundation, which has called for Telegram to improve its privacy practices. "Your messages about the movement of the enemy through the official chatbot … bring new trophies every day," the government agency tweeted.
from id


Telegram Ivan Begtin
FROM American