Telegram Group & Telegram Channel
Свежий интересный доклад The UK government as a data provider for AI [1] о том используют ли LLM госсайты Великобритании и официальные государственные данные. Результаты таковы что контент с официальных сайтов активно используется, а датасеты из data.gov.uk практически нет. Результат совершенно неудивительный поскольку основные LLM тренировали на бесконечном количестве текстов собранных с помощью Common Crawl или своими ботам или из поискового индекса, как у Google и Microsoft. В общем-то не на данных, строго говоря. Причин этому много, я бы обозначил основной причиной что датасеты для ИИ в государстве никто не готовил и датасеты с большим числом текстов также.

Рекомендации в докладе вполне разумные и включают:
1. Публиковать данные более пригодными для ИИ (AI ready)
2. Сделать ревизию доступности контента для AI краулеров.
3. Создать национальную дата библиотеку для AI

Последний пункт это про создание специализированного каталога данных высокого качества. О таких проектах давно и много где говорят, вероятность появления его в Великобритании растёт, это не первый доклад где я о таком читаю.

Текст доклада опубликован Институтом открытых данных (Великобритания) и у них же в этом году выходило ещё одно исследование From co-generated data to generative AI [2] о том как устроено обучение ИИ на данных краудсорсинга и соцсетей. Ничего революционного, но чтение полезное.

Ссылки:
[1] https://theodi.cdn.ngo/media/documents/The_UK_government_as_a_data_provider_for_AI.pdf
[2] https://wp.oecd.ai/app/uploads/2024/12/From-co-generated-data-to-generative-AI-1.pdf

#opendata #datasets #ai #uk #readings



group-telegram.com/begtin/6253
Create:
Last Update:

Свежий интересный доклад The UK government as a data provider for AI [1] о том используют ли LLM госсайты Великобритании и официальные государственные данные. Результаты таковы что контент с официальных сайтов активно используется, а датасеты из data.gov.uk практически нет. Результат совершенно неудивительный поскольку основные LLM тренировали на бесконечном количестве текстов собранных с помощью Common Crawl или своими ботам или из поискового индекса, как у Google и Microsoft. В общем-то не на данных, строго говоря. Причин этому много, я бы обозначил основной причиной что датасеты для ИИ в государстве никто не готовил и датасеты с большим числом текстов также.

Рекомендации в докладе вполне разумные и включают:
1. Публиковать данные более пригодными для ИИ (AI ready)
2. Сделать ревизию доступности контента для AI краулеров.
3. Создать национальную дата библиотеку для AI

Последний пункт это про создание специализированного каталога данных высокого качества. О таких проектах давно и много где говорят, вероятность появления его в Великобритании растёт, это не первый доклад где я о таком читаю.

Текст доклада опубликован Институтом открытых данных (Великобритания) и у них же в этом году выходило ещё одно исследование From co-generated data to generative AI [2] о том как устроено обучение ИИ на данных краудсорсинга и соцсетей. Ничего революционного, но чтение полезное.

Ссылки:
[1] https://theodi.cdn.ngo/media/documents/The_UK_government_as_a_data_provider_for_AI.pdf
[2] https://wp.oecd.ai/app/uploads/2024/12/From-co-generated-data-to-generative-AI-1.pdf

#opendata #datasets #ai #uk #readings

BY Ivan Begtin


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/begtin/6253

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Ukrainian forces successfully attacked Russian vehicles in the capital city of Kyiv thanks to a public tip made through the encrypted messaging app Telegram, Ukraine's top law-enforcement agency said on Tuesday. There was another possible development: Reuters also reported that Ukraine said that Belarus could soon join the invasion of Ukraine. However, the AFP, citing a Pentagon official, said the U.S. hasn’t yet seen evidence that Belarusian troops are in Ukraine. Either way, Durov says that he withdrew his resignation but that he was ousted from his company anyway. Subsequently, control of the company was reportedly handed to oligarchs Alisher Usmanov and Igor Sechin, both allegedly close associates of Russian leader Vladimir Putin. "There are a lot of things that Telegram could have been doing this whole time. And they know exactly what they are and they've chosen not to do them. That's why I don't trust them," she said. The Security Service of Ukraine said in a tweet that it was able to effectively target Russian convoys near Kyiv because of messages sent to an official Telegram bot account called "STOP Russian War."
from tr


Telegram Ivan Begtin
FROM American