Notice: file_put_contents(): Write of 10784 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50
Ivan Begtin | Telegram Webview: begtin/6281 -
Telegram Group & Telegram Channel
А что есть наборы данных?

Мысли к которым я регулярно возвращаюсь - это размышления о том что есть данные, чем они не являются и то по каким критериям считать что цифровой объект это дата файл или датасет.

Вот несколько примеров для размышления. Репозитории данных TextGRID [1], Virtual Language Observatory [2] и ряда других репозиториев связанных с компьютерной лингвистикой содержат множество цифровых объектов которые, в целом, можно относить к данным, но одновременно с этим там огромное число мультимедиа объектов: аудио, изображений и видео, а также множество текстов.

С точки зрения компьютерных лингвистов это, наверняка, данные, но для всех остальных они немашиночитаемы. Можно ли считать их датасетами? Когда эти же цифровые объекты представлены как наборы данных для машинного обучения, то это точно датасеты, без сомнений. Почему? Потому что у них потребители дата сайентисты. А чем хуже компьютерные лингвисты тогда? Вот, в том то и вопрос.

Другой пример, обязательные к раскрытию документы публичных компаний. В США публикуют файлы через систему SEC, в других странах есть аналогичное, а также сайты бирж. Среди их документов много Excel файлов и табличек внутри файлов PDF и MS Word. Можно ли рассматривать их как датасеты? С точки зрения финансовых аналитиков это, как минимум, файлы с данными. А финансовые аналитики это тоже пользователи данных, и одни из самых активных. Так как, можно ли трактовать их как датасеты?

Или, к примеру, документы прайс листов которые компании публикуют у себя на сайтах и некоторых площадках. Это ни в какой форме не public domain, тут вероятно и авторское право присутствует. С другой стороны, никто же на него не покушается, если индексировать их поисковиком, то просто в условиях использования устанавливать что права защищены. Но можно ли такие файлы считать наборами данных? По моему скорее нет, чем да, но есть сомнения.

Главные отличия датасета от любого просто лежащего в интернете файла с данными - это наличие карточки метаданных, контент машиночитаем и наличествует квалифицированный потребитель. Но очень и очень много случаев когда потребитель не так квалифицирован, данные не совсем машиночитаемы, а карточка с метаданными минимальна.

Ссылки:
[1] https://textgridrep.org
[2] https://vlo.clarin.eu

#opendata #datasets #thoughts



group-telegram.com/begtin/6281
Create:
Last Update:

А что есть наборы данных?

Мысли к которым я регулярно возвращаюсь - это размышления о том что есть данные, чем они не являются и то по каким критериям считать что цифровой объект это дата файл или датасет.

Вот несколько примеров для размышления. Репозитории данных TextGRID [1], Virtual Language Observatory [2] и ряда других репозиториев связанных с компьютерной лингвистикой содержат множество цифровых объектов которые, в целом, можно относить к данным, но одновременно с этим там огромное число мультимедиа объектов: аудио, изображений и видео, а также множество текстов.

С точки зрения компьютерных лингвистов это, наверняка, данные, но для всех остальных они немашиночитаемы. Можно ли считать их датасетами? Когда эти же цифровые объекты представлены как наборы данных для машинного обучения, то это точно датасеты, без сомнений. Почему? Потому что у них потребители дата сайентисты. А чем хуже компьютерные лингвисты тогда? Вот, в том то и вопрос.

Другой пример, обязательные к раскрытию документы публичных компаний. В США публикуют файлы через систему SEC, в других странах есть аналогичное, а также сайты бирж. Среди их документов много Excel файлов и табличек внутри файлов PDF и MS Word. Можно ли рассматривать их как датасеты? С точки зрения финансовых аналитиков это, как минимум, файлы с данными. А финансовые аналитики это тоже пользователи данных, и одни из самых активных. Так как, можно ли трактовать их как датасеты?

Или, к примеру, документы прайс листов которые компании публикуют у себя на сайтах и некоторых площадках. Это ни в какой форме не public domain, тут вероятно и авторское право присутствует. С другой стороны, никто же на него не покушается, если индексировать их поисковиком, то просто в условиях использования устанавливать что права защищены. Но можно ли такие файлы считать наборами данных? По моему скорее нет, чем да, но есть сомнения.

Главные отличия датасета от любого просто лежащего в интернете файла с данными - это наличие карточки метаданных, контент машиночитаем и наличествует квалифицированный потребитель. Но очень и очень много случаев когда потребитель не так квалифицирован, данные не совсем машиночитаемы, а карточка с метаданными минимальна.

Ссылки:
[1] https://textgridrep.org
[2] https://vlo.clarin.eu

#opendata #datasets #thoughts

BY Ivan Begtin


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/begtin/6281

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram has gained a reputation as the “secure” communications app in the post-Soviet states, but whenever you make choices about your digital security, it’s important to start by asking yourself, “What exactly am I securing? And who am I securing it from?” These questions should inform your decisions about whether you are using the right tool or platform for your digital security needs. Telegram is certainly not the most secure messaging app on the market right now. Its security model requires users to place a great deal of trust in Telegram’s ability to protect user data. For some users, this may be good enough for now. For others, it may be wiser to move to a different platform for certain kinds of high-risk communications. At this point, however, Durov had already been working on Telegram with his brother, and further planned a mobile-first social network with an explicit focus on anti-censorship. Later in April, he told TechCrunch that he had left Russia and had “no plans to go back,” saying that the nation was currently “incompatible with internet business at the moment.” He added later that he was looking for a country that matched his libertarian ideals to base his next startup. The Dow Jones Industrial Average fell 230 points, or 0.7%. Meanwhile, the S&P 500 and the Nasdaq Composite dropped 1.3% and 2.2%, respectively. All three indexes began the day with gains before selling off. Ukrainian President Volodymyr Zelensky said in a video message on Tuesday that Ukrainian forces "destroy the invaders wherever we can." Again, in contrast to Facebook, Google and Twitter, Telegram's founder Pavel Durov runs his company in relative secrecy from Dubai.
from fr


Telegram Ivan Begtin
FROM American