Telegram Group & Telegram Channel
А что есть наборы данных?

Мысли к которым я регулярно возвращаюсь - это размышления о том что есть данные, чем они не являются и то по каким критериям считать что цифровой объект это дата файл или датасет.

Вот несколько примеров для размышления. Репозитории данных TextGRID [1], Virtual Language Observatory [2] и ряда других репозиториев связанных с компьютерной лингвистикой содержат множество цифровых объектов которые, в целом, можно относить к данным, но одновременно с этим там огромное число мультимедиа объектов: аудио, изображений и видео, а также множество текстов.

С точки зрения компьютерных лингвистов это, наверняка, данные, но для всех остальных они немашиночитаемы. Можно ли считать их датасетами? Когда эти же цифровые объекты представлены как наборы данных для машинного обучения, то это точно датасеты, без сомнений. Почему? Потому что у них потребители дата сайентисты. А чем хуже компьютерные лингвисты тогда? Вот, в том то и вопрос.

Другой пример, обязательные к раскрытию документы публичных компаний. В США публикуют файлы через систему SEC, в других странах есть аналогичное, а также сайты бирж. Среди их документов много Excel файлов и табличек внутри файлов PDF и MS Word. Можно ли рассматривать их как датасеты? С точки зрения финансовых аналитиков это, как минимум, файлы с данными. А финансовые аналитики это тоже пользователи данных, и одни из самых активных. Так как, можно ли трактовать их как датасеты?

Или, к примеру, документы прайс листов которые компании публикуют у себя на сайтах и некоторых площадках. Это ни в какой форме не public domain, тут вероятно и авторское право присутствует. С другой стороны, никто же на него не покушается, если индексировать их поисковиком, то просто в условиях использования устанавливать что права защищены. Но можно ли такие файлы считать наборами данных? По моему скорее нет, чем да, но есть сомнения.

Главные отличия датасета от любого просто лежащего в интернете файла с данными - это наличие карточки метаданных, контент машиночитаем и наличествует квалифицированный потребитель. Но очень и очень много случаев когда потребитель не так квалифицирован, данные не совсем машиночитаемы, а карточка с метаданными минимальна.

Ссылки:
[1] https://textgridrep.org
[2] https://vlo.clarin.eu

#opendata #datasets #thoughts



group-telegram.com/begtin/6281
Create:
Last Update:

А что есть наборы данных?

Мысли к которым я регулярно возвращаюсь - это размышления о том что есть данные, чем они не являются и то по каким критериям считать что цифровой объект это дата файл или датасет.

Вот несколько примеров для размышления. Репозитории данных TextGRID [1], Virtual Language Observatory [2] и ряда других репозиториев связанных с компьютерной лингвистикой содержат множество цифровых объектов которые, в целом, можно относить к данным, но одновременно с этим там огромное число мультимедиа объектов: аудио, изображений и видео, а также множество текстов.

С точки зрения компьютерных лингвистов это, наверняка, данные, но для всех остальных они немашиночитаемы. Можно ли считать их датасетами? Когда эти же цифровые объекты представлены как наборы данных для машинного обучения, то это точно датасеты, без сомнений. Почему? Потому что у них потребители дата сайентисты. А чем хуже компьютерные лингвисты тогда? Вот, в том то и вопрос.

Другой пример, обязательные к раскрытию документы публичных компаний. В США публикуют файлы через систему SEC, в других странах есть аналогичное, а также сайты бирж. Среди их документов много Excel файлов и табличек внутри файлов PDF и MS Word. Можно ли рассматривать их как датасеты? С точки зрения финансовых аналитиков это, как минимум, файлы с данными. А финансовые аналитики это тоже пользователи данных, и одни из самых активных. Так как, можно ли трактовать их как датасеты?

Или, к примеру, документы прайс листов которые компании публикуют у себя на сайтах и некоторых площадках. Это ни в какой форме не public domain, тут вероятно и авторское право присутствует. С другой стороны, никто же на него не покушается, если индексировать их поисковиком, то просто в условиях использования устанавливать что права защищены. Но можно ли такие файлы считать наборами данных? По моему скорее нет, чем да, но есть сомнения.

Главные отличия датасета от любого просто лежащего в интернете файла с данными - это наличие карточки метаданных, контент машиночитаем и наличествует квалифицированный потребитель. Но очень и очень много случаев когда потребитель не так квалифицирован, данные не совсем машиночитаемы, а карточка с метаданными минимальна.

Ссылки:
[1] https://textgridrep.org
[2] https://vlo.clarin.eu

#opendata #datasets #thoughts

BY Ivan Begtin

❌Photos not found?❌Click here to update cache.


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/begtin/6281

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Also in the latest update is the ability for users to create a unique @username from the Settings page, providing others with an easy way to contact them via Search or their t.me/username link without sharing their phone number. After fleeing Russia, the brothers founded Telegram as a way to communicate outside the Kremlin's orbit. They now run it from Dubai, and Pavel Durov says it has more than 500 million monthly active users. The gold standard of encryption, known as end-to-end encryption, where only the sender and person who receives the message are able to see it, is available on Telegram only when the Secret Chat function is enabled. Voice and video calls are also completely encrypted. Under the Sebi Act, the regulator has the power to carry out search and seizure of books, registers, documents including electronics and digital devices from any person associated with the securities market. NEWS
from us


Telegram Ivan Begtin
FROM American