Telegram Group & Telegram Channel
Сиолошная
А вот и табличка с результатами — Success Rate: в скольки играх разгадала число — Avg Turns: сколько в среднем ходов понадобилось в выигрышных играх — Format Failures: сколько % ходов выдавали ответ, который скрипт не смог распарсить. o1-mini забивала на…
На этой неделе нашёлся добрый человек с лишними кредитами на аккаунте OpenAI, и получилось прогнать 500 игр на o1-mini (примерно $500 стоило), что существенно снизило размер доверительных интервалов, и подтвердило её неоспоримое лидерство. Обратите внимание, что несмотря на больший успех, чем у 2-3 места, модель и укладывается в меньше количество ходов в тех играх, где победила (в среднем 8.4 против 9.8 у Sonnet; оптимальное в игре — 7 ходов).

Кроме этого, прогнали 4o и 4o-mini по 2 раза: с температурой по умолчанию и с температурой 0.0. Температура отвечает за то, насколько «креативна» модель в своих текстах, насколько часто выбирает не самые вероятные слова. Температура 0.0 означает, что каждый раз выбирается самый вероятный токен при генерации, и нет никакой вариативности (что может быть полезно в задачах, требующих чёткости, например, решение математических задач — там нельзя в середине уравнения взять и вместо 5 написать 4).

Для gpt-4o-2024-08-06 уменьшение температуры дало улучшение, хоть доверительные интервалы в скобках сильно пересекаются.

Температура 0: 30.6% (26.7% - 34.8%)
По умолчанию: 26.2% (22.5% - 30.2%)

На 4o-mini никакого влияние не оказало:
Температура 0: 16.6% (13.6% - 20.1%)
По умолчанию: 17.0% (14.0% - 20.5%)

Осталось выделить ~$60 на тестирование Sonnet 3.5, и ещё примерно столько же на всю мелочь с низа таблицы, чтобы и им докинуть по 500 игр.

===

Прочитать больше про бенчмарк можно тут.
Если вам интересно почитать чаты игр, как именно o1-mini «думает», чтобы угадать ответ — все диалоги выложены, можете смотреть тут.



group-telegram.com/seeallochnaya/2131
Create:
Last Update:

На этой неделе нашёлся добрый человек с лишними кредитами на аккаунте OpenAI, и получилось прогнать 500 игр на o1-mini (примерно $500 стоило), что существенно снизило размер доверительных интервалов, и подтвердило её неоспоримое лидерство. Обратите внимание, что несмотря на больший успех, чем у 2-3 места, модель и укладывается в меньше количество ходов в тех играх, где победила (в среднем 8.4 против 9.8 у Sonnet; оптимальное в игре — 7 ходов).

Кроме этого, прогнали 4o и 4o-mini по 2 раза: с температурой по умолчанию и с температурой 0.0. Температура отвечает за то, насколько «креативна» модель в своих текстах, насколько часто выбирает не самые вероятные слова. Температура 0.0 означает, что каждый раз выбирается самый вероятный токен при генерации, и нет никакой вариативности (что может быть полезно в задачах, требующих чёткости, например, решение математических задач — там нельзя в середине уравнения взять и вместо 5 написать 4).

Для gpt-4o-2024-08-06 уменьшение температуры дало улучшение, хоть доверительные интервалы в скобках сильно пересекаются.

Температура 0: 30.6% (26.7% - 34.8%)
По умолчанию: 26.2% (22.5% - 30.2%)

На 4o-mini никакого влияние не оказало:
Температура 0: 16.6% (13.6% - 20.1%)
По умолчанию: 17.0% (14.0% - 20.5%)

Осталось выделить ~$60 на тестирование Sonnet 3.5, и ещё примерно столько же на всю мелочь с низа таблицы, чтобы и им докинуть по 500 игр.

===

Прочитать больше про бенчмарк можно тут.
Если вам интересно почитать чаты игр, как именно o1-mini «думает», чтобы угадать ответ — все диалоги выложены, можете смотреть тут.

BY Сиолошная





Share with your friend now:
group-telegram.com/seeallochnaya/2131

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram, which does little policing of its content, has also became a hub for Russian propaganda and misinformation. Many pro-Kremlin channels have become popular, alongside accounts of journalists and other independent observers. Apparently upbeat developments in Russia's discussions with Ukraine helped at least temporarily send investors back into risk assets. Russian President Vladimir Putin said during a meeting with his Belarusian counterpart Alexander Lukashenko that there were "certain positive developments" occurring in the talks with Ukraine, according to a transcript of their meeting. Putin added that discussions were happening "almost on a daily basis." He adds: "Telegram has become my primary news source." For example, WhatsApp restricted the number of times a user could forward something, and developed automated systems that detect and flag objectionable content.
from ye


Telegram Сиолошная
FROM American