Notice: file_put_contents(): Write of 12749 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50
Ivan Begtin | Telegram Webview: begtin/6290 -
Telegram Group & Telegram Channel
В MIT Technology Preview статья This is where the data to build AI comes from [1] о том откуда разработчики ИИ берут данные. В основе статьи доклад от группы The Data Provenance Initiative занимающейся анализом источников данных для ИИ, исследованием происхождения и юридического статуса наборов данных.

Работа эта, в целом, неблагодарная, но необходимая и в этом докладе и в статье много важных инсайтов которые можно начать с того что 90% всех данных на которых учат ИИ происходят из США и Европы. Факт которые кажется и так очевидным, но тут имеющий фактическое подтверждение.

Другой факт который я бы выделил. в том что прямой вклад государства в наборы данных для ИИ менее 10%. Среди создателей датасетов в виде текстовых ресурсов это только 9.3%, для аудио около 6% и для видео не более 1%.
Большая часть качественных датасетов создаются исследовательскими центрами и группами, а также лабораториями от индустрии разработчиков ИИ.

Важно также что резко растёт использование синтетических данных, данных соцмедиа и текстов веб сайтов, это существенное изменение по сравнению с тем как ранее собирались академические наборы данных в компьютерной лингвистике.

И, наконец, немаловажно что многие источники датасетов имеют гораздо большие ограничения на использование чем декларируемые лицензии. Простой пример, кто-то собрал датасет с видео из ТикТока и выложил его под лицензией CC-BY, но лицензия ТикТока не CC-BY, она довольно запретительна и разработчики ИИ имеют юридические риски в таких случаях, а их очень много.

Ссылки:
[1] https://www.technologyreview.com/2024/12/18/1108796/this-is-where-the-data-to-build-ai-comes-from/
[2] https://www.dataprovenance.org/Multimodal_Data_Provenance.pdf

#opendata #ai #datasets #linguistics



group-telegram.com/begtin/6290
Create:
Last Update:

В MIT Technology Preview статья This is where the data to build AI comes from [1] о том откуда разработчики ИИ берут данные. В основе статьи доклад от группы The Data Provenance Initiative занимающейся анализом источников данных для ИИ, исследованием происхождения и юридического статуса наборов данных.

Работа эта, в целом, неблагодарная, но необходимая и в этом докладе и в статье много важных инсайтов которые можно начать с того что 90% всех данных на которых учат ИИ происходят из США и Европы. Факт которые кажется и так очевидным, но тут имеющий фактическое подтверждение.

Другой факт который я бы выделил. в том что прямой вклад государства в наборы данных для ИИ менее 10%. Среди создателей датасетов в виде текстовых ресурсов это только 9.3%, для аудио около 6% и для видео не более 1%.
Большая часть качественных датасетов создаются исследовательскими центрами и группами, а также лабораториями от индустрии разработчиков ИИ.

Важно также что резко растёт использование синтетических данных, данных соцмедиа и текстов веб сайтов, это существенное изменение по сравнению с тем как ранее собирались академические наборы данных в компьютерной лингвистике.

И, наконец, немаловажно что многие источники датасетов имеют гораздо большие ограничения на использование чем декларируемые лицензии. Простой пример, кто-то собрал датасет с видео из ТикТока и выложил его под лицензией CC-BY, но лицензия ТикТока не CC-BY, она довольно запретительна и разработчики ИИ имеют юридические риски в таких случаях, а их очень много.

Ссылки:
[1] https://www.technologyreview.com/2024/12/18/1108796/this-is-where-the-data-to-build-ai-comes-from/
[2] https://www.dataprovenance.org/Multimodal_Data_Provenance.pdf

#opendata #ai #datasets #linguistics

BY Ivan Begtin






Share with your friend now:
group-telegram.com/begtin/6290

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Lastly, the web previews of t.me links have been given a new look, adding chat backgrounds and design elements from the fully-features Telegram Web client. NEWS Again, in contrast to Facebook, Google and Twitter, Telegram's founder Pavel Durov runs his company in relative secrecy from Dubai. But the Ukraine Crisis Media Center's Tsekhanovska points out that communications are often down in zones most affected by the war, making this sort of cross-referencing a luxury many cannot afford. Recently, Durav wrote on his Telegram channel that users' right to privacy, in light of the war in Ukraine, is "sacred, now more than ever."
from us


Telegram Ivan Begtin
FROM American