group-telegram.com/seeallochnaya/2286
Last Update:
Помните я писал про бенчмарк «Быки и коровы», где нужно угадывать, какое четырёхзначное число загадал пользователь? (ответы и валидация автоматические)
Ну так вот, бенчмарк — В С Ё!
Запустил o3-mini на нём, она разгадала ВСЕ 50 ЗАГАДОК (ограничение в 15 попыток, многие модели не укладываются и потому не разгадывают). Кроме того, среднее количество попыток — 6.06, в то время как математически оптимальное ~5.67. То есть модель прям ООООЧЕНЬ продвинулась в рассуждениях, не требующих знаний.
Для сравнения лучшая модель до этого o1-mini (полную не тестировал, очень дорого) решала лишь половину задач, и средняя длина цепочки была 8.4 хода (оценка по 500 задачам, достаточно точная). И это был лучший результат — все R1, Gemini, Claude не справлялись и с половиной (все метрики тут). То есть o3-mini очень хорошо помнит контекст, все прошлые шаги игры, делает из них выводы и движется в правильном направлении.
Так ещё и в форматировании ответов тоже нуль ошибок (у Reasoning-моделей с этим почему-то плохо, они стабильно забывают, что было в промпте — так глубоко уходят в свои мысли).
BY Сиолошная
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/VHc7A04nfLhtOKsjultrzz5GUsBOA4rACUM70SPcE0cewPLuUzAcgDAwuwRvmNWk1JMcMfcQeZ-KJ1B4eG50m0ZzqW8T5ltDoVwVclV3x30oCKdOA4KRhK03YRRDtEnTjLL0wUAo6S6Yqh6dQXMmA7D3ENokGe4-f0qw-6EzaMxmQH-4amsvs0CaBPrOufcGxRrOlSvAonNzrEfzOmbg2IT-zq2WVRrDSa6doCUUPUEyITJYlc370Js_QDnnnVo5RhX_5OoHBg9EgDmAFM31m7ik7AAeSBExKdNRm29Wb2hJGJt2f0IE9yZxFly0yimUfp4QpocGdm3KvQHoLzn5cw.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/gEblBd35dpy0ogZYYokXA4Ic09_fHEqCSwQbQ_lOhK5ahkYIJogKSPU_9jm39aXfIMUOlSFbkuT0Pp2G9izisHqppVFetwMH-WxBBfLdYj2h3AP6CJnoy_HUf5gisIVcy4tJtO4PjkC6hfvmE02V7gGL-3CfTmMyRYJYhMKEJDsbBDD43Z1rJoxopme3QcPBOiLbx77MHEAm8cyVQUlqk3H8jwW0doWk46_BQvtB8Z209Icds8n-MtES4j6wvM3qrCILKP9M0aZf4UNVjrT4S7CYWqpWaUlil3Ec_uEZr9qwJAqznN0QeZIGlrSAhNsMwjS0tklutm5ol0WNfhiSMQ.jpg)
Share with your friend now:
group-telegram.com/seeallochnaya/2286