Telegram Group & Telegram Channel
o3-mini-high показала 0,8% галлюцинаций — исторический минимум среди LLM.

И это прорыв: раньше ни одна модель не опускалась ниже 1%. Для сравнения, популярная GPT-4o выдает ошибки в 1,5% случаев, DeepSeek-V3 — в 3,9%, o1 — в 2,4%. Разница колоссальная.

LLM (они же нейронки) очень любят уверенно нести бред — именно это и называют галлюцинациями. Они придумывают факты, искажают данные и выдают ложь за истину — причем делают это так убедительно, что если вы не разбираетесь в теме, то даже не заподозрите подвох.

Метрика «процент галлюцинаций» звучит просто, но измерить ее — та еще задача. Часто нейросети оценивают друг друга, создавая эффект «эхо-камеры» и сомнительные результаты. Vectara, на чьем лидерборде основаны данные, использует другой метод: HHEM-2.0. Эта модель проверяет текст напрямую, сверяя его с источниками.

Если раньше нейросетям можно было доверять на уровне гадалки, то теперь — почти как проверенной энциклопедии. Конечно, 0,8% не равно нулю ошибок, но это огромный шаг вперед.



group-telegram.com/robotsymphony/5441
Create:
Last Update:

o3-mini-high показала 0,8% галлюцинаций — исторический минимум среди LLM.

И это прорыв: раньше ни одна модель не опускалась ниже 1%. Для сравнения, популярная GPT-4o выдает ошибки в 1,5% случаев, DeepSeek-V3 — в 3,9%, o1 — в 2,4%. Разница колоссальная.

LLM (они же нейронки) очень любят уверенно нести бред — именно это и называют галлюцинациями. Они придумывают факты, искажают данные и выдают ложь за истину — причем делают это так убедительно, что если вы не разбираетесь в теме, то даже не заподозрите подвох.

Метрика «процент галлюцинаций» звучит просто, но измерить ее — та еще задача. Часто нейросети оценивают друг друга, создавая эффект «эхо-камеры» и сомнительные результаты. Vectara, на чьем лидерборде основаны данные, использует другой метод: HHEM-2.0. Эта модель проверяет текст напрямую, сверяя его с источниками.

Если раньше нейросетям можно было доверять на уровне гадалки, то теперь — почти как проверенной энциклопедии. Конечно, 0,8% не равно нулю ошибок, но это огромный шаг вперед.

BY Робот сочинит симфонию?




Share with your friend now:
group-telegram.com/robotsymphony/5441

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Although some channels have been removed, the curation process is considered opaque and insufficient by analysts. The regulator said it had received information that messages containing stock tips and other investment advice with respect to selected listed companies are being widely circulated through websites and social media platforms such as Telegram, Facebook, WhatsApp and Instagram. Investors took profits on Friday while they could ahead of the weekend, explained Tom Essaye, founder of Sevens Report Research. Saturday and Sunday could easily bring unfortunate news on the war front—and traders would rather be able to sell any recent winnings at Friday’s earlier prices than wait for a potentially lower price at Monday’s open. In a message on his Telegram channel recently recounting the episode, Durov wrote: "I lost my company and my home, but would do it again – without hesitation." Stocks closed in the red Friday as investors weighed upbeat remarks from Russian President Vladimir Putin about diplomatic discussions with Ukraine against a weaker-than-expected print on U.S. consumer sentiment.
from us


Telegram Робот сочинит симфонию?
FROM American