Telegram Group & Telegram Channel
o3-mini-high показала 0,8% галлюцинаций — исторический минимум среди LLM.

И это прорыв: раньше ни одна модель не опускалась ниже 1%. Для сравнения, популярная GPT-4o выдает ошибки в 1,5% случаев, DeepSeek-V3 — в 3,9%, o1 — в 2,4%. Разница колоссальная.

LLM (они же нейронки) очень любят уверенно нести бред — именно это и называют галлюцинациями. Они придумывают факты, искажают данные и выдают ложь за истину — причем делают это так убедительно, что если вы не разбираетесь в теме, то даже не заподозрите подвох.

Метрика «процент галлюцинаций» звучит просто, но измерить ее — та еще задача. Часто нейросети оценивают друг друга, создавая эффект «эхо-камеры» и сомнительные результаты. Vectara, на чьем лидерборде основаны данные, использует другой метод: HHEM-2.0. Эта модель проверяет текст напрямую, сверяя его с источниками.

Если раньше нейросетям можно было доверять на уровне гадалки, то теперь — почти как проверенной энциклопедии. Конечно, 0,8% не равно нулю ошибок, но это огромный шаг вперед.



group-telegram.com/robotsymphony/5441
Create:
Last Update:

o3-mini-high показала 0,8% галлюцинаций — исторический минимум среди LLM.

И это прорыв: раньше ни одна модель не опускалась ниже 1%. Для сравнения, популярная GPT-4o выдает ошибки в 1,5% случаев, DeepSeek-V3 — в 3,9%, o1 — в 2,4%. Разница колоссальная.

LLM (они же нейронки) очень любят уверенно нести бред — именно это и называют галлюцинациями. Они придумывают факты, искажают данные и выдают ложь за истину — причем делают это так убедительно, что если вы не разбираетесь в теме, то даже не заподозрите подвох.

Метрика «процент галлюцинаций» звучит просто, но измерить ее — та еще задача. Часто нейросети оценивают друг друга, создавая эффект «эхо-камеры» и сомнительные результаты. Vectara, на чьем лидерборде основаны данные, использует другой метод: HHEM-2.0. Эта модель проверяет текст напрямую, сверяя его с источниками.

Если раньше нейросетям можно было доверять на уровне гадалки, то теперь — почти как проверенной энциклопедии. Конечно, 0,8% не равно нулю ошибок, но это огромный шаг вперед.

BY Робот сочинит симфонию?




Share with your friend now:
group-telegram.com/robotsymphony/5441

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Messages are not fully encrypted by default. That means the company could, in theory, access the content of the messages, or be forced to hand over the data at the request of a government. "He has to start being more proactive and to find a real solution to this situation, not stay in standby without interfering. It's a very irresponsible position from the owner of Telegram," she said. Lastly, the web previews of t.me links have been given a new look, adding chat backgrounds and design elements from the fully-features Telegram Web client. Telegram was co-founded by Pavel and Nikolai Durov, the brothers who had previously created VKontakte. VK is Russia’s equivalent of Facebook, a social network used for public and private messaging, audio and video sharing as well as online gaming. In January, SimpleWeb reported that VK was Russia’s fourth most-visited website, after Yandex, YouTube and Google’s Russian-language homepage. In 2016, Forbes’ Michael Solomon described Pavel Durov (pictured, below) as the “Mark Zuckerberg of Russia.” "For Telegram, accountability has always been a problem, which is why it was so popular even before the full-scale war with far-right extremists and terrorists from all over the world," she told AFP from her safe house outside the Ukrainian capital.
from us


Telegram Робот сочинит симфонию?
FROM American