Telegram Group & Telegram Channel
В MIT Technology Preview статья This is where the data to build AI comes from [1] о том откуда разработчики ИИ берут данные. В основе статьи доклад от группы The Data Provenance Initiative занимающейся анализом источников данных для ИИ, исследованием происхождения и юридического статуса наборов данных.

Работа эта, в целом, неблагодарная, но необходимая и в этом докладе и в статье много важных инсайтов которые можно начать с того что 90% всех данных на которых учат ИИ происходят из США и Европы. Факт которые кажется и так очевидным, но тут имеющий фактическое подтверждение.

Другой факт который я бы выделил. в том что прямой вклад государства в наборы данных для ИИ менее 10%. Среди создателей датасетов в виде текстовых ресурсов это только 9.3%, для аудио около 6% и для видео не более 1%.
Большая часть качественных датасетов создаются исследовательскими центрами и группами, а также лабораториями от индустрии разработчиков ИИ.

Важно также что резко растёт использование синтетических данных, данных соцмедиа и текстов веб сайтов, это существенное изменение по сравнению с тем как ранее собирались академические наборы данных в компьютерной лингвистике.

И, наконец, немаловажно что многие источники датасетов имеют гораздо большие ограничения на использование чем декларируемые лицензии. Простой пример, кто-то собрал датасет с видео из ТикТока и выложил его под лицензией CC-BY, но лицензия ТикТока не CC-BY, она довольно запретительна и разработчики ИИ имеют юридические риски в таких случаях, а их очень много.

Ссылки:
[1] https://www.technologyreview.com/2024/12/18/1108796/this-is-where-the-data-to-build-ai-comes-from/
[2] https://www.dataprovenance.org/Multimodal_Data_Provenance.pdf

#opendata #ai #datasets #linguistics



group-telegram.com/begtin/6288
Create:
Last Update:

В MIT Technology Preview статья This is where the data to build AI comes from [1] о том откуда разработчики ИИ берут данные. В основе статьи доклад от группы The Data Provenance Initiative занимающейся анализом источников данных для ИИ, исследованием происхождения и юридического статуса наборов данных.

Работа эта, в целом, неблагодарная, но необходимая и в этом докладе и в статье много важных инсайтов которые можно начать с того что 90% всех данных на которых учат ИИ происходят из США и Европы. Факт которые кажется и так очевидным, но тут имеющий фактическое подтверждение.

Другой факт который я бы выделил. в том что прямой вклад государства в наборы данных для ИИ менее 10%. Среди создателей датасетов в виде текстовых ресурсов это только 9.3%, для аудио около 6% и для видео не более 1%.
Большая часть качественных датасетов создаются исследовательскими центрами и группами, а также лабораториями от индустрии разработчиков ИИ.

Важно также что резко растёт использование синтетических данных, данных соцмедиа и текстов веб сайтов, это существенное изменение по сравнению с тем как ранее собирались академические наборы данных в компьютерной лингвистике.

И, наконец, немаловажно что многие источники датасетов имеют гораздо большие ограничения на использование чем декларируемые лицензии. Простой пример, кто-то собрал датасет с видео из ТикТока и выложил его под лицензией CC-BY, но лицензия ТикТока не CC-BY, она довольно запретительна и разработчики ИИ имеют юридические риски в таких случаях, а их очень много.

Ссылки:
[1] https://www.technologyreview.com/2024/12/18/1108796/this-is-where-the-data-to-build-ai-comes-from/
[2] https://www.dataprovenance.org/Multimodal_Data_Provenance.pdf

#opendata #ai #datasets #linguistics

BY Ivan Begtin






Share with your friend now:
group-telegram.com/begtin/6288

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"Someone posing as a Ukrainian citizen just joins the chat and starts spreading misinformation, or gathers data, like the location of shelters," Tsekhanovska said, noting how false messages have urged Ukrainians to turn off their phones at a specific time of night, citing cybersafety. "He has to start being more proactive and to find a real solution to this situation, not stay in standby without interfering. It's a very irresponsible position from the owner of Telegram," she said. The news also helped traders look past another report showing decades-high inflation and shake off some of the volatility from recent sessions. The Bureau of Labor Statistics' February Consumer Price Index (CPI) this week showed another surge in prices even before Russia escalated its attacks in Ukraine. The headline CPI — soaring 7.9% over last year — underscored the sticky inflationary pressures reverberating across the U.S. economy, with everything from groceries to rents and airline fares getting more expensive for everyday consumers. "This time we received the coordinates of enemy vehicles marked 'V' in Kyiv region," it added.
from no


Telegram Ivan Begtin
FROM American