Свежий интересный доклад The UK government as a data provider for AI [1] о том используют ли LLM госсайты Великобритании и официальные государственные данные. Результаты таковы что контент с официальных сайтов активно используется, а датасеты из data.gov.uk практически нет. Результат совершенно неудивительный поскольку основные LLM тренировали на бесконечном количестве текстов собранных с помощью Common Crawl или своими ботам или из поискового индекса, как у Google и Microsoft. В общем-то не на данных, строго говоря. Причин этому много, я бы обозначил основной причиной что датасеты для ИИ в государстве никто не готовил и датасеты с большим числом текстов также.
Рекомендации в докладе вполне разумные и включают: 1. Публиковать данные более пригодными для ИИ (AI ready) 2. Сделать ревизию доступности контента для AI краулеров. 3. Создать национальную дата библиотеку для AI
Последний пункт это про создание специализированного каталога данных высокого качества. О таких проектах давно и много где говорят, вероятность появления его в Великобритании растёт, это не первый доклад где я о таком читаю.
Текст доклада опубликован Институтом открытых данных (Великобритания) и у них же в этом году выходило ещё одно исследование From co-generated data to generative AI [2] о том как устроено обучение ИИ на данных краудсорсинга и соцсетей. Ничего революционного, но чтение полезное.
Свежий интересный доклад The UK government as a data provider for AI [1] о том используют ли LLM госсайты Великобритании и официальные государственные данные. Результаты таковы что контент с официальных сайтов активно используется, а датасеты из data.gov.uk практически нет. Результат совершенно неудивительный поскольку основные LLM тренировали на бесконечном количестве текстов собранных с помощью Common Crawl или своими ботам или из поискового индекса, как у Google и Microsoft. В общем-то не на данных, строго говоря. Причин этому много, я бы обозначил основной причиной что датасеты для ИИ в государстве никто не готовил и датасеты с большим числом текстов также.
Рекомендации в докладе вполне разумные и включают: 1. Публиковать данные более пригодными для ИИ (AI ready) 2. Сделать ревизию доступности контента для AI краулеров. 3. Создать национальную дата библиотеку для AI
Последний пункт это про создание специализированного каталога данных высокого качества. О таких проектах давно и много где говорят, вероятность появления его в Великобритании растёт, это не первый доклад где я о таком читаю.
Текст доклада опубликован Институтом открытых данных (Великобритания) и у них же в этом году выходило ещё одно исследование From co-generated data to generative AI [2] о том как устроено обучение ИИ на данных краудсорсинга и соцсетей. Ничего революционного, но чтение полезное.
"Russians are really disconnected from the reality of what happening to their country," Andrey said. "So Telegram has become essential for understanding what's going on to the Russian-speaking world." Right now the digital security needs of Russians and Ukrainians are very different, and they lead to very different caveats about how to mitigate the risks associated with using Telegram. For Ukrainians in Ukraine, whose physical safety is at risk because they are in a war zone, digital security is probably not their highest priority. They may value access to news and communication with their loved ones over making sure that all of their communications are encrypted in such a manner that they are indecipherable to Telegram, its employees, or governments with court orders. Stocks closed in the red Friday as investors weighed upbeat remarks from Russian President Vladimir Putin about diplomatic discussions with Ukraine against a weaker-than-expected print on U.S. consumer sentiment. Asked about its stance on disinformation, Telegram spokesperson Remi Vaughn told AFP: "As noted by our CEO, the sheer volume of information being shared on channels makes it extremely difficult to verify, so it's important that users double-check what they read." At its heart, Telegram is little more than a messaging app like WhatsApp or Signal. But it also offers open channels that enable a single user, or a group of users, to communicate with large numbers in a method similar to a Twitter account. This has proven to be both a blessing and a curse for Telegram and its users, since these channels can be used for both good and ill. Right now, as Wired reports, the app is a key way for Ukrainians to receive updates from the government during the invasion.
from ms