Notice: file_put_contents(): Write of 10784 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50
Ivan Begtin | Telegram Webview: begtin/6281 -
Telegram Group & Telegram Channel
А что есть наборы данных?

Мысли к которым я регулярно возвращаюсь - это размышления о том что есть данные, чем они не являются и то по каким критериям считать что цифровой объект это дата файл или датасет.

Вот несколько примеров для размышления. Репозитории данных TextGRID [1], Virtual Language Observatory [2] и ряда других репозиториев связанных с компьютерной лингвистикой содержат множество цифровых объектов которые, в целом, можно относить к данным, но одновременно с этим там огромное число мультимедиа объектов: аудио, изображений и видео, а также множество текстов.

С точки зрения компьютерных лингвистов это, наверняка, данные, но для всех остальных они немашиночитаемы. Можно ли считать их датасетами? Когда эти же цифровые объекты представлены как наборы данных для машинного обучения, то это точно датасеты, без сомнений. Почему? Потому что у них потребители дата сайентисты. А чем хуже компьютерные лингвисты тогда? Вот, в том то и вопрос.

Другой пример, обязательные к раскрытию документы публичных компаний. В США публикуют файлы через систему SEC, в других странах есть аналогичное, а также сайты бирж. Среди их документов много Excel файлов и табличек внутри файлов PDF и MS Word. Можно ли рассматривать их как датасеты? С точки зрения финансовых аналитиков это, как минимум, файлы с данными. А финансовые аналитики это тоже пользователи данных, и одни из самых активных. Так как, можно ли трактовать их как датасеты?

Или, к примеру, документы прайс листов которые компании публикуют у себя на сайтах и некоторых площадках. Это ни в какой форме не public domain, тут вероятно и авторское право присутствует. С другой стороны, никто же на него не покушается, если индексировать их поисковиком, то просто в условиях использования устанавливать что права защищены. Но можно ли такие файлы считать наборами данных? По моему скорее нет, чем да, но есть сомнения.

Главные отличия датасета от любого просто лежащего в интернете файла с данными - это наличие карточки метаданных, контент машиночитаем и наличествует квалифицированный потребитель. Но очень и очень много случаев когда потребитель не так квалифицирован, данные не совсем машиночитаемы, а карточка с метаданными минимальна.

Ссылки:
[1] https://textgridrep.org
[2] https://vlo.clarin.eu

#opendata #datasets #thoughts



group-telegram.com/begtin/6281
Create:
Last Update:

А что есть наборы данных?

Мысли к которым я регулярно возвращаюсь - это размышления о том что есть данные, чем они не являются и то по каким критериям считать что цифровой объект это дата файл или датасет.

Вот несколько примеров для размышления. Репозитории данных TextGRID [1], Virtual Language Observatory [2] и ряда других репозиториев связанных с компьютерной лингвистикой содержат множество цифровых объектов которые, в целом, можно относить к данным, но одновременно с этим там огромное число мультимедиа объектов: аудио, изображений и видео, а также множество текстов.

С точки зрения компьютерных лингвистов это, наверняка, данные, но для всех остальных они немашиночитаемы. Можно ли считать их датасетами? Когда эти же цифровые объекты представлены как наборы данных для машинного обучения, то это точно датасеты, без сомнений. Почему? Потому что у них потребители дата сайентисты. А чем хуже компьютерные лингвисты тогда? Вот, в том то и вопрос.

Другой пример, обязательные к раскрытию документы публичных компаний. В США публикуют файлы через систему SEC, в других странах есть аналогичное, а также сайты бирж. Среди их документов много Excel файлов и табличек внутри файлов PDF и MS Word. Можно ли рассматривать их как датасеты? С точки зрения финансовых аналитиков это, как минимум, файлы с данными. А финансовые аналитики это тоже пользователи данных, и одни из самых активных. Так как, можно ли трактовать их как датасеты?

Или, к примеру, документы прайс листов которые компании публикуют у себя на сайтах и некоторых площадках. Это ни в какой форме не public domain, тут вероятно и авторское право присутствует. С другой стороны, никто же на него не покушается, если индексировать их поисковиком, то просто в условиях использования устанавливать что права защищены. Но можно ли такие файлы считать наборами данных? По моему скорее нет, чем да, но есть сомнения.

Главные отличия датасета от любого просто лежащего в интернете файла с данными - это наличие карточки метаданных, контент машиночитаем и наличествует квалифицированный потребитель. Но очень и очень много случаев когда потребитель не так квалифицирован, данные не совсем машиночитаемы, а карточка с метаданными минимальна.

Ссылки:
[1] https://textgridrep.org
[2] https://vlo.clarin.eu

#opendata #datasets #thoughts

BY Ivan Begtin


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/begtin/6281

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

And indeed, volatility has been a hallmark of the market environment so far in 2022, with the S&P 500 still down more than 10% for the year-to-date after first sliding into a correction last month. The CBOE Volatility Index, or VIX, has held at a lofty level of more than 30. Some people used the platform to organize ahead of the storming of the U.S. Capitol in January 2021, and last month Senator Mark Warner sent a letter to Durov urging him to curb Russian information operations on Telegram. The perpetrators use various names to carry out the investment scams. They may also impersonate or clone licensed capital market intermediaries by using the names, logos, credentials, websites and other details of the legitimate entities to promote the illegal schemes. Russians and Ukrainians are both prolific users of Telegram. They rely on the app for channels that act as newsfeeds, group chats (both public and private), and one-to-one communication. Since the Russian invasion of Ukraine, Telegram has remained an important lifeline for both Russians and Ukrainians, as a way of staying aware of the latest news and keeping in touch with loved ones. These entities are reportedly operating nine Telegram channels with more than five million subscribers to whom they were making recommendations on selected listed scrips. Such recommendations induced the investors to deal in the said scrips, thereby creating artificial volume and price rise.
from sg


Telegram Ivan Begtin
FROM American