o3-mini-high показала 0,8% галлюцинаций — исторический минимум среди LLM.
И это прорыв: раньше ни одна модель не опускалась ниже 1%. Для сравнения, популярная GPT-4o выдает ошибки в 1,5% случаев, DeepSeek-V3 — в 3,9%, o1 — в 2,4%. Разница колоссальная.
LLM (они же нейронки) очень любят уверенно нести бред — именно это и называют галлюцинациями. Они придумывают факты, искажают данные и выдают ложь за истину — причем делают это так убедительно, что если вы не разбираетесь в теме, то даже не заподозрите подвох.
Метрика «процент галлюцинаций» звучит просто, но измерить ее — та еще задача. Часто нейросети оценивают друг друга, создавая эффект «эхо-камеры» и сомнительные результаты. Vectara, на чьем лидерборде основаны данные, использует другой метод: HHEM-2.0. Эта модель проверяет текст напрямую, сверяя его с источниками.
Если раньше нейросетям можно было доверять на уровне гадалки, то теперь — почти как проверенной энциклопедии. Конечно, 0,8% не равно нулю ошибок, но это огромный шаг вперед.
o3-mini-high показала 0,8% галлюцинаций — исторический минимум среди LLM.
И это прорыв: раньше ни одна модель не опускалась ниже 1%. Для сравнения, популярная GPT-4o выдает ошибки в 1,5% случаев, DeepSeek-V3 — в 3,9%, o1 — в 2,4%. Разница колоссальная.
LLM (они же нейронки) очень любят уверенно нести бред — именно это и называют галлюцинациями. Они придумывают факты, искажают данные и выдают ложь за истину — причем делают это так убедительно, что если вы не разбираетесь в теме, то даже не заподозрите подвох.
Метрика «процент галлюцинаций» звучит просто, но измерить ее — та еще задача. Часто нейросети оценивают друг друга, создавая эффект «эхо-камеры» и сомнительные результаты. Vectara, на чьем лидерборде основаны данные, использует другой метод: HHEM-2.0. Эта модель проверяет текст напрямую, сверяя его с источниками.
Если раньше нейросетям можно было доверять на уровне гадалки, то теперь — почти как проверенной энциклопедии. Конечно, 0,8% не равно нулю ошибок, но это огромный шаг вперед.
The picture was mixed overseas. Hong Kong’s Hang Seng Index fell 1.6%, under pressure from U.S. regulatory scrutiny on New York-listed Chinese companies. Stocks were more buoyant in Europe, where Frankfurt’s DAX surged 1.4%. Either way, Durov says that he withdrew his resignation but that he was ousted from his company anyway. Subsequently, control of the company was reportedly handed to oligarchs Alisher Usmanov and Igor Sechin, both allegedly close associates of Russian leader Vladimir Putin. Stocks closed in the red Friday as investors weighed upbeat remarks from Russian President Vladimir Putin about diplomatic discussions with Ukraine against a weaker-than-expected print on U.S. consumer sentiment. Some people used the platform to organize ahead of the storming of the U.S. Capitol in January 2021, and last month Senator Mark Warner sent a letter to Durov urging him to curb Russian information operations on Telegram. As the war in Ukraine rages, the messaging app Telegram has emerged as the go-to place for unfiltered live war updates for both Ukrainian refugees and increasingly isolated Russians alike.
from us