Telegram Group & Telegram Channel
В MIT Technology Preview статья This is where the data to build AI comes from [1] о том откуда разработчики ИИ берут данные. В основе статьи доклад от группы The Data Provenance Initiative занимающейся анализом источников данных для ИИ, исследованием происхождения и юридического статуса наборов данных.

Работа эта, в целом, неблагодарная, но необходимая и в этом докладе и в статье много важных инсайтов которые можно начать с того что 90% всех данных на которых учат ИИ происходят из США и Европы. Факт которые кажется и так очевидным, но тут имеющий фактическое подтверждение.

Другой факт который я бы выделил. в том что прямой вклад государства в наборы данных для ИИ менее 10%. Среди создателей датасетов в виде текстовых ресурсов это только 9.3%, для аудио около 6% и для видео не более 1%.
Большая часть качественных датасетов создаются исследовательскими центрами и группами, а также лабораториями от индустрии разработчиков ИИ.

Важно также что резко растёт использование синтетических данных, данных соцмедиа и текстов веб сайтов, это существенное изменение по сравнению с тем как ранее собирались академические наборы данных в компьютерной лингвистике.

И, наконец, немаловажно что многие источники датасетов имеют гораздо большие ограничения на использование чем декларируемые лицензии. Простой пример, кто-то собрал датасет с видео из ТикТока и выложил его под лицензией CC-BY, но лицензия ТикТока не CC-BY, она довольно запретительна и разработчики ИИ имеют юридические риски в таких случаях, а их очень много.

Ссылки:
[1] https://www.technologyreview.com/2024/12/18/1108796/this-is-where-the-data-to-build-ai-comes-from/
[2] https://www.dataprovenance.org/Multimodal_Data_Provenance.pdf

#opendata #ai #datasets #linguistics



group-telegram.com/begtin/6288
Create:
Last Update:

В MIT Technology Preview статья This is where the data to build AI comes from [1] о том откуда разработчики ИИ берут данные. В основе статьи доклад от группы The Data Provenance Initiative занимающейся анализом источников данных для ИИ, исследованием происхождения и юридического статуса наборов данных.

Работа эта, в целом, неблагодарная, но необходимая и в этом докладе и в статье много важных инсайтов которые можно начать с того что 90% всех данных на которых учат ИИ происходят из США и Европы. Факт которые кажется и так очевидным, но тут имеющий фактическое подтверждение.

Другой факт который я бы выделил. в том что прямой вклад государства в наборы данных для ИИ менее 10%. Среди создателей датасетов в виде текстовых ресурсов это только 9.3%, для аудио около 6% и для видео не более 1%.
Большая часть качественных датасетов создаются исследовательскими центрами и группами, а также лабораториями от индустрии разработчиков ИИ.

Важно также что резко растёт использование синтетических данных, данных соцмедиа и текстов веб сайтов, это существенное изменение по сравнению с тем как ранее собирались академические наборы данных в компьютерной лингвистике.

И, наконец, немаловажно что многие источники датасетов имеют гораздо большие ограничения на использование чем декларируемые лицензии. Простой пример, кто-то собрал датасет с видео из ТикТока и выложил его под лицензией CC-BY, но лицензия ТикТока не CC-BY, она довольно запретительна и разработчики ИИ имеют юридические риски в таких случаях, а их очень много.

Ссылки:
[1] https://www.technologyreview.com/2024/12/18/1108796/this-is-where-the-data-to-build-ai-comes-from/
[2] https://www.dataprovenance.org/Multimodal_Data_Provenance.pdf

#opendata #ai #datasets #linguistics

BY Ivan Begtin






Share with your friend now:
group-telegram.com/begtin/6288

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

As such, the SC would like to remind investors to always exercise caution when evaluating investment opportunities, especially those promising unrealistically high returns with little or no risk. Investors should also never deposit money into someone’s personal bank account if instructed. Founder Pavel Durov says tech is meant to set you free He said that since his platform does not have the capacity to check all channels, it may restrict some in Russia and Ukraine "for the duration of the conflict," but then reversed course hours later after many users complained that Telegram was an important source of information. Continuing its crackdown against entities allegedly involved in a front-running scam using messaging app Telegram, Sebi on Thursday carried out search and seizure operations at the premises of eight entities in multiple locations across the country. Some people used the platform to organize ahead of the storming of the U.S. Capitol in January 2021, and last month Senator Mark Warner sent a letter to Durov urging him to curb Russian information operations on Telegram.
from ar


Telegram Ivan Begtin
FROM American