Telegram Group & Telegram Channel
В MIT Technology Preview статья This is where the data to build AI comes from [1] о том откуда разработчики ИИ берут данные. В основе статьи доклад от группы The Data Provenance Initiative занимающейся анализом источников данных для ИИ, исследованием происхождения и юридического статуса наборов данных.

Работа эта, в целом, неблагодарная, но необходимая и в этом докладе и в статье много важных инсайтов которые можно начать с того что 90% всех данных на которых учат ИИ происходят из США и Европы. Факт которые кажется и так очевидным, но тут имеющий фактическое подтверждение.

Другой факт который я бы выделил. в том что прямой вклад государства в наборы данных для ИИ менее 10%. Среди создателей датасетов в виде текстовых ресурсов это только 9.3%, для аудио около 6% и для видео не более 1%.
Большая часть качественных датасетов создаются исследовательскими центрами и группами, а также лабораториями от индустрии разработчиков ИИ.

Важно также что резко растёт использование синтетических данных, данных соцмедиа и текстов веб сайтов, это существенное изменение по сравнению с тем как ранее собирались академические наборы данных в компьютерной лингвистике.

И, наконец, немаловажно что многие источники датасетов имеют гораздо большие ограничения на использование чем декларируемые лицензии. Простой пример, кто-то собрал датасет с видео из ТикТока и выложил его под лицензией CC-BY, но лицензия ТикТока не CC-BY, она довольно запретительна и разработчики ИИ имеют юридические риски в таких случаях, а их очень много.

Ссылки:
[1] https://www.technologyreview.com/2024/12/18/1108796/this-is-where-the-data-to-build-ai-comes-from/
[2] https://www.dataprovenance.org/Multimodal_Data_Provenance.pdf

#opendata #ai #datasets #linguistics



group-telegram.com/begtin/6289
Create:
Last Update:

В MIT Technology Preview статья This is where the data to build AI comes from [1] о том откуда разработчики ИИ берут данные. В основе статьи доклад от группы The Data Provenance Initiative занимающейся анализом источников данных для ИИ, исследованием происхождения и юридического статуса наборов данных.

Работа эта, в целом, неблагодарная, но необходимая и в этом докладе и в статье много важных инсайтов которые можно начать с того что 90% всех данных на которых учат ИИ происходят из США и Европы. Факт которые кажется и так очевидным, но тут имеющий фактическое подтверждение.

Другой факт который я бы выделил. в том что прямой вклад государства в наборы данных для ИИ менее 10%. Среди создателей датасетов в виде текстовых ресурсов это только 9.3%, для аудио около 6% и для видео не более 1%.
Большая часть качественных датасетов создаются исследовательскими центрами и группами, а также лабораториями от индустрии разработчиков ИИ.

Важно также что резко растёт использование синтетических данных, данных соцмедиа и текстов веб сайтов, это существенное изменение по сравнению с тем как ранее собирались академические наборы данных в компьютерной лингвистике.

И, наконец, немаловажно что многие источники датасетов имеют гораздо большие ограничения на использование чем декларируемые лицензии. Простой пример, кто-то собрал датасет с видео из ТикТока и выложил его под лицензией CC-BY, но лицензия ТикТока не CC-BY, она довольно запретительна и разработчики ИИ имеют юридические риски в таких случаях, а их очень много.

Ссылки:
[1] https://www.technologyreview.com/2024/12/18/1108796/this-is-where-the-data-to-build-ai-comes-from/
[2] https://www.dataprovenance.org/Multimodal_Data_Provenance.pdf

#opendata #ai #datasets #linguistics

BY Ivan Begtin






Share with your friend now:
group-telegram.com/begtin/6289

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In addition, Telegram's architecture limits the ability to slow the spread of false information: the lack of a central public feed, and the fact that comments are easily disabled in channels, reduce the space for public pushback. On Telegram’s website, it says that Pavel Durov “supports Telegram financially and ideologically while Nikolai (Duvov)’s input is technological.” Currently, the Telegram team is based in Dubai, having moved around from Berlin, London and Singapore after departing Russia. Meanwhile, the company which owns Telegram is registered in the British Virgin Islands. But because group chats and the channel features are not end-to-end encrypted, Galperin said user privacy is potentially under threat. Individual messages can be fully encrypted. But the user has to turn on that function. It's not automatic, as it is on Signal and WhatsApp. Now safely in France with his spouse and three of his children, Kliuchnikov scrolls through Telegram to learn about the devastation happening in his home country.
from no


Telegram Ivan Begtin
FROM American