Telegram Group & Telegram Channel
Сиолошная
А вот и табличка с результатами — Success Rate: в скольки играх разгадала число — Avg Turns: сколько в среднем ходов понадобилось в выигрышных играх — Format Failures: сколько % ходов выдавали ответ, который скрипт не смог распарсить. o1-mini забивала на…
На этой неделе нашёлся добрый человек с лишними кредитами на аккаунте OpenAI, и получилось прогнать 500 игр на o1-mini (примерно $500 стоило), что существенно снизило размер доверительных интервалов, и подтвердило её неоспоримое лидерство. Обратите внимание, что несмотря на больший успех, чем у 2-3 места, модель и укладывается в меньше количество ходов в тех играх, где победила (в среднем 8.4 против 9.8 у Sonnet; оптимальное в игре — 7 ходов).

Кроме этого, прогнали 4o и 4o-mini по 2 раза: с температурой по умолчанию и с температурой 0.0. Температура отвечает за то, насколько «креативна» модель в своих текстах, насколько часто выбирает не самые вероятные слова. Температура 0.0 означает, что каждый раз выбирается самый вероятный токен при генерации, и нет никакой вариативности (что может быть полезно в задачах, требующих чёткости, например, решение математических задач — там нельзя в середине уравнения взять и вместо 5 написать 4).

Для gpt-4o-2024-08-06 уменьшение температуры дало улучшение, хоть доверительные интервалы в скобках сильно пересекаются.

Температура 0: 30.6% (26.7% - 34.8%)
По умолчанию: 26.2% (22.5% - 30.2%)

На 4o-mini никакого влияние не оказало:
Температура 0: 16.6% (13.6% - 20.1%)
По умолчанию: 17.0% (14.0% - 20.5%)

Осталось выделить ~$60 на тестирование Sonnet 3.5, и ещё примерно столько же на всю мелочь с низа таблицы, чтобы и им докинуть по 500 игр.

===

Прочитать больше про бенчмарк можно тут.
Если вам интересно почитать чаты игр, как именно o1-mini «думает», чтобы угадать ответ — все диалоги выложены, можете смотреть тут.



group-telegram.com/seeallochnaya/2131
Create:
Last Update:

На этой неделе нашёлся добрый человек с лишними кредитами на аккаунте OpenAI, и получилось прогнать 500 игр на o1-mini (примерно $500 стоило), что существенно снизило размер доверительных интервалов, и подтвердило её неоспоримое лидерство. Обратите внимание, что несмотря на больший успех, чем у 2-3 места, модель и укладывается в меньше количество ходов в тех играх, где победила (в среднем 8.4 против 9.8 у Sonnet; оптимальное в игре — 7 ходов).

Кроме этого, прогнали 4o и 4o-mini по 2 раза: с температурой по умолчанию и с температурой 0.0. Температура отвечает за то, насколько «креативна» модель в своих текстах, насколько часто выбирает не самые вероятные слова. Температура 0.0 означает, что каждый раз выбирается самый вероятный токен при генерации, и нет никакой вариативности (что может быть полезно в задачах, требующих чёткости, например, решение математических задач — там нельзя в середине уравнения взять и вместо 5 написать 4).

Для gpt-4o-2024-08-06 уменьшение температуры дало улучшение, хоть доверительные интервалы в скобках сильно пересекаются.

Температура 0: 30.6% (26.7% - 34.8%)
По умолчанию: 26.2% (22.5% - 30.2%)

На 4o-mini никакого влияние не оказало:
Температура 0: 16.6% (13.6% - 20.1%)
По умолчанию: 17.0% (14.0% - 20.5%)

Осталось выделить ~$60 на тестирование Sonnet 3.5, и ещё примерно столько же на всю мелочь с низа таблицы, чтобы и им докинуть по 500 игр.

===

Прочитать больше про бенчмарк можно тут.
Если вам интересно почитать чаты игр, как именно o1-mini «думает», чтобы угадать ответ — все диалоги выложены, можете смотреть тут.

BY Сиолошная





Share with your friend now:
group-telegram.com/seeallochnaya/2131

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Individual messages can be fully encrypted. But the user has to turn on that function. It's not automatic, as it is on Signal and WhatsApp. Additionally, investors are often instructed to deposit monies into personal bank accounts of individuals who claim to represent a legitimate entity, and/or into an unrelated corporate account. To lend credence and to lure unsuspecting victims, perpetrators usually claim that their entity and/or the investment schemes are approved by financial authorities. In 2014, Pavel Durov fled the country after allies of the Kremlin took control of the social networking site most know just as VK. Russia's intelligence agency had asked Durov to turn over the data of anti-Kremlin protesters. Durov refused to do so. "Like the bombing of the maternity ward in Mariupol," he said, "Even before it hits the news, you see the videos on the Telegram channels." "He has to start being more proactive and to find a real solution to this situation, not stay in standby without interfering. It's a very irresponsible position from the owner of Telegram," she said.
from it


Telegram Сиолошная
FROM American