Telegram Group & Telegram Channel
Свежий интересный доклад The UK government as a data provider for AI [1] о том используют ли LLM госсайты Великобритании и официальные государственные данные. Результаты таковы что контент с официальных сайтов активно используется, а датасеты из data.gov.uk практически нет. Результат совершенно неудивительный поскольку основные LLM тренировали на бесконечном количестве текстов собранных с помощью Common Crawl или своими ботам или из поискового индекса, как у Google и Microsoft. В общем-то не на данных, строго говоря. Причин этому много, я бы обозначил основной причиной что датасеты для ИИ в государстве никто не готовил и датасеты с большим числом текстов также.

Рекомендации в докладе вполне разумные и включают:
1. Публиковать данные более пригодными для ИИ (AI ready)
2. Сделать ревизию доступности контента для AI краулеров.
3. Создать национальную дата библиотеку для AI

Последний пункт это про создание специализированного каталога данных высокого качества. О таких проектах давно и много где говорят, вероятность появления его в Великобритании растёт, это не первый доклад где я о таком читаю.

Текст доклада опубликован Институтом открытых данных (Великобритания) и у них же в этом году выходило ещё одно исследование From co-generated data to generative AI [2] о том как устроено обучение ИИ на данных краудсорсинга и соцсетей. Ничего революционного, но чтение полезное.

Ссылки:
[1] https://theodi.cdn.ngo/media/documents/The_UK_government_as_a_data_provider_for_AI.pdf
[2] https://wp.oecd.ai/app/uploads/2024/12/From-co-generated-data-to-generative-AI-1.pdf

#opendata #datasets #ai #uk #readings



group-telegram.com/begtin/6253
Create:
Last Update:

Свежий интересный доклад The UK government as a data provider for AI [1] о том используют ли LLM госсайты Великобритании и официальные государственные данные. Результаты таковы что контент с официальных сайтов активно используется, а датасеты из data.gov.uk практически нет. Результат совершенно неудивительный поскольку основные LLM тренировали на бесконечном количестве текстов собранных с помощью Common Crawl или своими ботам или из поискового индекса, как у Google и Microsoft. В общем-то не на данных, строго говоря. Причин этому много, я бы обозначил основной причиной что датасеты для ИИ в государстве никто не готовил и датасеты с большим числом текстов также.

Рекомендации в докладе вполне разумные и включают:
1. Публиковать данные более пригодными для ИИ (AI ready)
2. Сделать ревизию доступности контента для AI краулеров.
3. Создать национальную дата библиотеку для AI

Последний пункт это про создание специализированного каталога данных высокого качества. О таких проектах давно и много где говорят, вероятность появления его в Великобритании растёт, это не первый доклад где я о таком читаю.

Текст доклада опубликован Институтом открытых данных (Великобритания) и у них же в этом году выходило ещё одно исследование From co-generated data to generative AI [2] о том как устроено обучение ИИ на данных краудсорсинга и соцсетей. Ничего революционного, но чтение полезное.

Ссылки:
[1] https://theodi.cdn.ngo/media/documents/The_UK_government_as_a_data_provider_for_AI.pdf
[2] https://wp.oecd.ai/app/uploads/2024/12/From-co-generated-data-to-generative-AI-1.pdf

#opendata #datasets #ai #uk #readings

BY Ivan Begtin


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/begtin/6253

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram users are able to send files of any type up to 2GB each and access them from any device, with no limit on cloud storage, which has made downloading files more popular on the platform. The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips. In 2018, Russia banned Telegram although it reversed the prohibition two years later. Telegram does offer end-to-end encrypted communications through Secret Chats, but this is not the default setting. Standard conversations use the MTProto method, enabling server-client encryption but with them stored on the server for ease-of-access. This makes using Telegram across multiple devices simple, but also means that the regular Telegram chats you’re having with folks are not as secure as you may believe. In a statement, the regulator said the search and seizure operation was carried out against seven individuals and one corporate entity at multiple locations in Ahmedabad and Bhavnagar in Gujarat, Neemuch in Madhya Pradesh, Delhi, and Mumbai.
from us


Telegram Ivan Begtin
FROM American