group-telegram.com/seeallochnaya/2286
Last Update:
Помните я писал про бенчмарк «Быки и коровы», где нужно угадывать, какое четырёхзначное число загадал пользователь? (ответы и валидация автоматические)
Ну так вот, бенчмарк — В С Ё!
Запустил o3-mini на нём, она разгадала ВСЕ 50 ЗАГАДОК (ограничение в 15 попыток, многие модели не укладываются и потому не разгадывают). Кроме того, среднее количество попыток — 6.06, в то время как математически оптимальное ~5.67. То есть модель прям ООООЧЕНЬ продвинулась в рассуждениях, не требующих знаний.
Для сравнения лучшая модель до этого o1-mini (полную не тестировал, очень дорого) решала лишь половину задач, и средняя длина цепочки была 8.4 хода (оценка по 500 задачам, достаточно точная). И это был лучший результат — все R1, Gemini, Claude не справлялись и с половиной (все метрики тут). То есть o3-mini очень хорошо помнит контекст, все прошлые шаги игры, делает из них выводы и движется в правильном направлении.
Так ещё и в форматировании ответов тоже нуль ошибок (у Reasoning-моделей с этим почему-то плохо, они стабильно забывают, что было в промпте — так глубоко уходят в свои мысли).
BY Сиолошная
Share with your friend now:
group-telegram.com/seeallochnaya/2286