Telegram Group & Telegram Channel
Свежий интересный доклад The UK government as a data provider for AI [1] о том используют ли LLM госсайты Великобритании и официальные государственные данные. Результаты таковы что контент с официальных сайтов активно используется, а датасеты из data.gov.uk практически нет. Результат совершенно неудивительный поскольку основные LLM тренировали на бесконечном количестве текстов собранных с помощью Common Crawl или своими ботам или из поискового индекса, как у Google и Microsoft. В общем-то не на данных, строго говоря. Причин этому много, я бы обозначил основной причиной что датасеты для ИИ в государстве никто не готовил и датасеты с большим числом текстов также.

Рекомендации в докладе вполне разумные и включают:
1. Публиковать данные более пригодными для ИИ (AI ready)
2. Сделать ревизию доступности контента для AI краулеров.
3. Создать национальную дата библиотеку для AI

Последний пункт это про создание специализированного каталога данных высокого качества. О таких проектах давно и много где говорят, вероятность появления его в Великобритании растёт, это не первый доклад где я о таком читаю.

Текст доклада опубликован Институтом открытых данных (Великобритания) и у них же в этом году выходило ещё одно исследование From co-generated data to generative AI [2] о том как устроено обучение ИИ на данных краудсорсинга и соцсетей. Ничего революционного, но чтение полезное.

Ссылки:
[1] https://theodi.cdn.ngo/media/documents/The_UK_government_as_a_data_provider_for_AI.pdf
[2] https://wp.oecd.ai/app/uploads/2024/12/From-co-generated-data-to-generative-AI-1.pdf

#opendata #datasets #ai #uk #readings



group-telegram.com/begtin/6253
Create:
Last Update:

Свежий интересный доклад The UK government as a data provider for AI [1] о том используют ли LLM госсайты Великобритании и официальные государственные данные. Результаты таковы что контент с официальных сайтов активно используется, а датасеты из data.gov.uk практически нет. Результат совершенно неудивительный поскольку основные LLM тренировали на бесконечном количестве текстов собранных с помощью Common Crawl или своими ботам или из поискового индекса, как у Google и Microsoft. В общем-то не на данных, строго говоря. Причин этому много, я бы обозначил основной причиной что датасеты для ИИ в государстве никто не готовил и датасеты с большим числом текстов также.

Рекомендации в докладе вполне разумные и включают:
1. Публиковать данные более пригодными для ИИ (AI ready)
2. Сделать ревизию доступности контента для AI краулеров.
3. Создать национальную дата библиотеку для AI

Последний пункт это про создание специализированного каталога данных высокого качества. О таких проектах давно и много где говорят, вероятность появления его в Великобритании растёт, это не первый доклад где я о таком читаю.

Текст доклада опубликован Институтом открытых данных (Великобритания) и у них же в этом году выходило ещё одно исследование From co-generated data to generative AI [2] о том как устроено обучение ИИ на данных краудсорсинга и соцсетей. Ничего революционного, но чтение полезное.

Ссылки:
[1] https://theodi.cdn.ngo/media/documents/The_UK_government_as_a_data_provider_for_AI.pdf
[2] https://wp.oecd.ai/app/uploads/2024/12/From-co-generated-data-to-generative-AI-1.pdf

#opendata #datasets #ai #uk #readings

BY Ivan Begtin


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/begtin/6253

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

After fleeing Russia, the brothers founded Telegram as a way to communicate outside the Kremlin's orbit. They now run it from Dubai, and Pavel Durov says it has more than 500 million monthly active users. The Securities and Exchange Board of India (Sebi) had carried out a similar exercise in 2017 in a matter related to circulation of messages through WhatsApp. And indeed, volatility has been a hallmark of the market environment so far in 2022, with the S&P 500 still down more than 10% for the year-to-date after first sliding into a correction last month. The CBOE Volatility Index, or VIX, has held at a lofty level of more than 30. Since its launch in 2013, Telegram has grown from a simple messaging app to a broadcast network. Its user base isn’t as vast as WhatsApp’s, and its broadcast platform is a fraction the size of Twitter, but it’s nonetheless showing its use. While Telegram has been embroiled in controversy for much of its life, it has become a vital source of communication during the invasion of Ukraine. But, if all of this is new to you, let us explain, dear friends, what on Earth a Telegram is meant to be, and why you should, or should not, need to care. Meanwhile, a completely redesigned attachment menu appears when sending multiple photos or vides. Users can tap "X selected" (X being the number of items) at the top of the panel to preview how the album will look in the chat when it's sent, as well as rearrange or remove selected media.
from us


Telegram Ivan Begtin
FROM American