Telegram Group & Telegram Channel
Сиолошная
А вот и табличка с результатами — Success Rate: в скольки играх разгадала число — Avg Turns: сколько в среднем ходов понадобилось в выигрышных играх — Format Failures: сколько % ходов выдавали ответ, который скрипт не смог распарсить. o1-mini забивала на…
На этой неделе нашёлся добрый человек с лишними кредитами на аккаунте OpenAI, и получилось прогнать 500 игр на o1-mini (примерно $500 стоило), что существенно снизило размер доверительных интервалов, и подтвердило её неоспоримое лидерство. Обратите внимание, что несмотря на больший успех, чем у 2-3 места, модель и укладывается в меньше количество ходов в тех играх, где победила (в среднем 8.4 против 9.8 у Sonnet; оптимальное в игре — 7 ходов).

Кроме этого, прогнали 4o и 4o-mini по 2 раза: с температурой по умолчанию и с температурой 0.0. Температура отвечает за то, насколько «креативна» модель в своих текстах, насколько часто выбирает не самые вероятные слова. Температура 0.0 означает, что каждый раз выбирается самый вероятный токен при генерации, и нет никакой вариативности (что может быть полезно в задачах, требующих чёткости, например, решение математических задач — там нельзя в середине уравнения взять и вместо 5 написать 4).

Для gpt-4o-2024-08-06 уменьшение температуры дало улучшение, хоть доверительные интервалы в скобках сильно пересекаются.

Температура 0: 30.6% (26.7% - 34.8%)
По умолчанию: 26.2% (22.5% - 30.2%)

На 4o-mini никакого влияние не оказало:
Температура 0: 16.6% (13.6% - 20.1%)
По умолчанию: 17.0% (14.0% - 20.5%)

Осталось выделить ~$60 на тестирование Sonnet 3.5, и ещё примерно столько же на всю мелочь с низа таблицы, чтобы и им докинуть по 500 игр.

===

Прочитать больше про бенчмарк можно тут.
Если вам интересно почитать чаты игр, как именно o1-mini «думает», чтобы угадать ответ — все диалоги выложены, можете смотреть тут.



group-telegram.com/seeallochnaya/2131
Create:
Last Update:

На этой неделе нашёлся добрый человек с лишними кредитами на аккаунте OpenAI, и получилось прогнать 500 игр на o1-mini (примерно $500 стоило), что существенно снизило размер доверительных интервалов, и подтвердило её неоспоримое лидерство. Обратите внимание, что несмотря на больший успех, чем у 2-3 места, модель и укладывается в меньше количество ходов в тех играх, где победила (в среднем 8.4 против 9.8 у Sonnet; оптимальное в игре — 7 ходов).

Кроме этого, прогнали 4o и 4o-mini по 2 раза: с температурой по умолчанию и с температурой 0.0. Температура отвечает за то, насколько «креативна» модель в своих текстах, насколько часто выбирает не самые вероятные слова. Температура 0.0 означает, что каждый раз выбирается самый вероятный токен при генерации, и нет никакой вариативности (что может быть полезно в задачах, требующих чёткости, например, решение математических задач — там нельзя в середине уравнения взять и вместо 5 написать 4).

Для gpt-4o-2024-08-06 уменьшение температуры дало улучшение, хоть доверительные интервалы в скобках сильно пересекаются.

Температура 0: 30.6% (26.7% - 34.8%)
По умолчанию: 26.2% (22.5% - 30.2%)

На 4o-mini никакого влияние не оказало:
Температура 0: 16.6% (13.6% - 20.1%)
По умолчанию: 17.0% (14.0% - 20.5%)

Осталось выделить ~$60 на тестирование Sonnet 3.5, и ещё примерно столько же на всю мелочь с низа таблицы, чтобы и им докинуть по 500 игр.

===

Прочитать больше про бенчмарк можно тут.
Если вам интересно почитать чаты игр, как именно o1-mini «думает», чтобы угадать ответ — все диалоги выложены, можете смотреть тут.

BY Сиолошная





Share with your friend now:
group-telegram.com/seeallochnaya/2131

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The news also helped traders look past another report showing decades-high inflation and shake off some of the volatility from recent sessions. The Bureau of Labor Statistics' February Consumer Price Index (CPI) this week showed another surge in prices even before Russia escalated its attacks in Ukraine. The headline CPI — soaring 7.9% over last year — underscored the sticky inflationary pressures reverberating across the U.S. economy, with everything from groceries to rents and airline fares getting more expensive for everyday consumers. "Russians are really disconnected from the reality of what happening to their country," Andrey said. "So Telegram has become essential for understanding what's going on to the Russian-speaking world." "The inflation fire was already hot and now with war-driven inflation added to the mix, it will grow even hotter, setting off a scramble by the world’s central banks to pull back their stimulus earlier than expected," Chris Rupkey, chief economist at FWDBONDS, wrote in an email. "A spike in inflation rates has preceded economic recessions historically and this time prices have soared to levels that once again pose a threat to growth." Also in the latest update is the ability for users to create a unique @username from the Settings page, providing others with an easy way to contact them via Search or their t.me/username link without sharing their phone number. 'Wild West'
from ar


Telegram Сиолошная
FROM American