o3-mini-high показала 0,8% галлюцинаций — исторический минимум среди LLM.
И это прорыв: раньше ни одна модель не опускалась ниже 1%. Для сравнения, популярная GPT-4o выдает ошибки в 1,5% случаев, DeepSeek-V3 — в 3,9%, o1 — в 2,4%. Разница колоссальная.
LLM (они же нейронки) очень любят уверенно нести бред — именно это и называют галлюцинациями. Они придумывают факты, искажают данные и выдают ложь за истину — причем делают это так убедительно, что если вы не разбираетесь в теме, то даже не заподозрите подвох.
Метрика «процент галлюцинаций» звучит просто, но измерить ее — та еще задача. Часто нейросети оценивают друг друга, создавая эффект «эхо-камеры» и сомнительные результаты. Vectara, на чьем лидерборде основаны данные, использует другой метод: HHEM-2.0. Эта модель проверяет текст напрямую, сверяя его с источниками.
Если раньше нейросетям можно было доверять на уровне гадалки, то теперь — почти как проверенной энциклопедии. Конечно, 0,8% не равно нулю ошибок, но это огромный шаг вперед.
o3-mini-high показала 0,8% галлюцинаций — исторический минимум среди LLM.
И это прорыв: раньше ни одна модель не опускалась ниже 1%. Для сравнения, популярная GPT-4o выдает ошибки в 1,5% случаев, DeepSeek-V3 — в 3,9%, o1 — в 2,4%. Разница колоссальная.
LLM (они же нейронки) очень любят уверенно нести бред — именно это и называют галлюцинациями. Они придумывают факты, искажают данные и выдают ложь за истину — причем делают это так убедительно, что если вы не разбираетесь в теме, то даже не заподозрите подвох.
Метрика «процент галлюцинаций» звучит просто, но измерить ее — та еще задача. Часто нейросети оценивают друг друга, создавая эффект «эхо-камеры» и сомнительные результаты. Vectara, на чьем лидерборде основаны данные, использует другой метод: HHEM-2.0. Эта модель проверяет текст напрямую, сверяя его с источниками.
Если раньше нейросетям можно было доверять на уровне гадалки, то теперь — почти как проверенной энциклопедии. Конечно, 0,8% не равно нулю ошибок, но это огромный шаг вперед.
At its heart, Telegram is little more than a messaging app like WhatsApp or Signal. But it also offers open channels that enable a single user, or a group of users, to communicate with large numbers in a method similar to a Twitter account. This has proven to be both a blessing and a curse for Telegram and its users, since these channels can be used for both good and ill. Right now, as Wired reports, the app is a key way for Ukrainians to receive updates from the government during the invasion. In 2018, Russia banned Telegram although it reversed the prohibition two years later. WhatsApp, a rival messaging platform, introduced some measures to counter disinformation when Covid-19 was first sweeping the world. Official government accounts have also spread fake fact checks. An official Twitter account for the Russia diplomatic mission in Geneva shared a fake debunking video claiming without evidence that "Western and Ukrainian media are creating thousands of fake news on Russia every day." The video, which has amassed almost 30,000 views, offered a "how-to" spot misinformation. Anastasia Vlasova/Getty Images
from us