Telegram Group & Telegram Channel
Сиолошная
5 дней назад в чате канала подписчик написал: Попробовал все LLM на игру в быки и коровы. Я загадываю число, они отгадывали. Нет... Llm не умеют думать. Они просто плетут кружево из слов Если вы не знали, или детство было давно, то Быки и Коровы — это простая…
Помните я писал про бенчмарк «Быки и коровы», где нужно угадывать, какое четырёхзначное число загадал пользователь? (ответы и валидация автоматические)

Ну так вот, бенчмарк — В С Ё!

Запустил o3-mini на нём, она разгадала ВСЕ 50 ЗАГАДОК (ограничение в 15 попыток, многие модели не укладываются и потому не разгадывают). Кроме того, среднее количество попыток — 6.06, в то время как математически оптимальное ~5.67. То есть модель прям ООООЧЕНЬ продвинулась в рассуждениях, не требующих знаний.

Для сравнения лучшая модель до этого o1-mini (полную не тестировал, очень дорого) решала лишь половину задач, и средняя длина цепочки была 8.4 хода (оценка по 500 задачам, достаточно точная). И это был лучший результат — все R1, Gemini, Claude не справлялись и с половиной (все метрики тут). То есть o3-mini очень хорошо помнит контекст, все прошлые шаги игры, делает из них выводы и движется в правильном направлении.

Так ещё и в форматировании ответов тоже нуль ошибок (у Reasoning-моделей с этим почему-то плохо, они стабильно забывают, что было в промпте — так глубоко уходят в свои мысли).



group-telegram.com/seeallochnaya/2286
Create:
Last Update:

Помните я писал про бенчмарк «Быки и коровы», где нужно угадывать, какое четырёхзначное число загадал пользователь? (ответы и валидация автоматические)

Ну так вот, бенчмарк — В С Ё!

Запустил o3-mini на нём, она разгадала ВСЕ 50 ЗАГАДОК (ограничение в 15 попыток, многие модели не укладываются и потому не разгадывают). Кроме того, среднее количество попыток — 6.06, в то время как математически оптимальное ~5.67. То есть модель прям ООООЧЕНЬ продвинулась в рассуждениях, не требующих знаний.

Для сравнения лучшая модель до этого o1-mini (полную не тестировал, очень дорого) решала лишь половину задач, и средняя длина цепочки была 8.4 хода (оценка по 500 задачам, достаточно точная). И это был лучший результат — все R1, Gemini, Claude не справлялись и с половиной (все метрики тут). То есть o3-mini очень хорошо помнит контекст, все прошлые шаги игры, делает из них выводы и движется в правильном направлении.

Так ещё и в форматировании ответов тоже нуль ошибок (у Reasoning-моделей с этим почему-то плохо, они стабильно забывают, что было в промпте — так глубоко уходят в свои мысли).

BY Сиолошная





Share with your friend now:
group-telegram.com/seeallochnaya/2286

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

For example, WhatsApp restricted the number of times a user could forward something, and developed automated systems that detect and flag objectionable content. During the operations, Sebi officials seized various records and documents, including 34 mobile phones, six laptops, four desktops, four tablets, two hard drive disks and one pen drive from the custody of these persons. "There are several million Russians who can lift their head up from propaganda and try to look for other sources, and I'd say that most look for it on Telegram," he said. Perpetrators of these scams will create a public group on Telegram to promote these investment packages that are usually accompanied by fake testimonies and sometimes advertised as being Shariah-compliant. Interested investors will be asked to directly message the representatives to begin investing in the various investment packages offered. As the war in Ukraine rages, the messaging app Telegram has emerged as the go-to place for unfiltered live war updates for both Ukrainian refugees and increasingly isolated Russians alike.
from in


Telegram Сиолошная
FROM American