Telegram Group & Telegram Channel
Сиолошная
5 дней назад в чате канала подписчик написал: Попробовал все LLM на игру в быки и коровы. Я загадываю число, они отгадывали. Нет... Llm не умеют думать. Они просто плетут кружево из слов Если вы не знали, или детство было давно, то Быки и Коровы — это простая…
Помните я писал про бенчмарк «Быки и коровы», где нужно угадывать, какое четырёхзначное число загадал пользователь? (ответы и валидация автоматические)

Ну так вот, бенчмарк — В С Ё!

Запустил o3-mini на нём, она разгадала ВСЕ 50 ЗАГАДОК (ограничение в 15 попыток, многие модели не укладываются и потому не разгадывают). Кроме того, среднее количество попыток — 6.06, в то время как математически оптимальное ~5.67. То есть модель прям ООООЧЕНЬ продвинулась в рассуждениях, не требующих знаний.

Для сравнения лучшая модель до этого o1-mini (полную не тестировал, очень дорого) решала лишь половину задач, и средняя длина цепочки была 8.4 хода (оценка по 500 задачам, достаточно точная). И это был лучший результат — все R1, Gemini, Claude не справлялись и с половиной (все метрики тут). То есть o3-mini очень хорошо помнит контекст, все прошлые шаги игры, делает из них выводы и движется в правильном направлении.

Так ещё и в форматировании ответов тоже нуль ошибок (у Reasoning-моделей с этим почему-то плохо, они стабильно забывают, что было в промпте — так глубоко уходят в свои мысли).



group-telegram.com/seeallochnaya/2286
Create:
Last Update:

Помните я писал про бенчмарк «Быки и коровы», где нужно угадывать, какое четырёхзначное число загадал пользователь? (ответы и валидация автоматические)

Ну так вот, бенчмарк — В С Ё!

Запустил o3-mini на нём, она разгадала ВСЕ 50 ЗАГАДОК (ограничение в 15 попыток, многие модели не укладываются и потому не разгадывают). Кроме того, среднее количество попыток — 6.06, в то время как математически оптимальное ~5.67. То есть модель прям ООООЧЕНЬ продвинулась в рассуждениях, не требующих знаний.

Для сравнения лучшая модель до этого o1-mini (полную не тестировал, очень дорого) решала лишь половину задач, и средняя длина цепочки была 8.4 хода (оценка по 500 задачам, достаточно точная). И это был лучший результат — все R1, Gemini, Claude не справлялись и с половиной (все метрики тут). То есть o3-mini очень хорошо помнит контекст, все прошлые шаги игры, делает из них выводы и движется в правильном направлении.

Так ещё и в форматировании ответов тоже нуль ошибок (у Reasoning-моделей с этим почему-то плохо, они стабильно забывают, что было в промпте — так глубоко уходят в свои мысли).

BY Сиолошная





Share with your friend now:
group-telegram.com/seeallochnaya/2286

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Unlike Silicon Valley giants such as Facebook and Twitter, which run very public anti-disinformation programs, Brooking said: "Telegram is famously lax or absent in its content moderation policy." Pavel Durov, a billionaire who embraces an all-black wardrobe and is often compared to the character Neo from "the Matrix," funds Telegram through his personal wealth and debt financing. And despite being one of the world's most popular tech companies, Telegram reportedly has only about 30 employees who defer to Durov for most major decisions about the platform. The S&P 500 fell 1.3% to 4,204.36, and the Dow Jones Industrial Average was down 0.7% to 32,943.33. The Dow posted a fifth straight weekly loss — its longest losing streak since 2019. The Nasdaq Composite tumbled 2.2% to 12,843.81. Though all three indexes opened in the green, stocks took a turn after a new report showed U.S. consumer sentiment deteriorated more than expected in early March as consumers' inflation expectations soared to the highest since 1981. Some privacy experts say Telegram is not secure enough The War on Fakes channel has repeatedly attempted to push conspiracies that footage from Ukraine is somehow being falsified. One post on the channel from February 24 claimed without evidence that a widely viewed photo of a Ukrainian woman injured in an airstrike in the city of Chuhuiv was doctored and that the woman was seen in a different photo days later without injuries. The post, which has over 600,000 views, also baselessly claimed that the woman's blood was actually makeup or grape juice.
from ua


Telegram Сиолошная
FROM American