Telegram Group & Telegram Channel
Вторая заметка, про цену использования o3:
— сам по себе бенчмарк подразумевает, что нужно достигнуть определённого уровня (75%) с учётом ограничения на вычислительные мощности, конвертированные в доллары ($10000 за 500 задач, 400 общедоступных + 100 секретных; $20 за задачу, в среднем человеку платили где-то $4-5)
— на ARC свежая модель OpenAI тестировалась двумя способами: чтобы уложиться в это ограничение, и чтобы пофлексить мускулами и показать наилучший возможный результат, потратив гораздо, нет, ГОРАЗДО больше денег.
— первый сетап, чтобы уложиться в $20 на задачу: модель параллельно и независимо генерирует 6 вариантов ответа, и затем из них выбирается один или два, который появлялся чаще всего (вообще ARC позволяет и людям делать 2 попытки, и обычно модели замеряют также, а тут не уточнили; по умолчанию считаю, что тоже 2, но это не важно).
— при этом цена использования o3 не сообщалась, и при расчётах используются цены на o1 (ведь она уже выпущена). Я делаю аккуратное предположение, что скорее всего модель будет стоить столько же, и что она, видимо, имеет примерно те же самые размеры (по крайней мере количество активных параметров). Увидим в январе-феврале '25-го, тут вообще спекуляция.
— для 100 приватных задач модель сгенерировала 33 миллиона токенов решений, то есть каждое решение (из 6 для задачи) в среднем имело длину 33M / 100 / 6 = 55'000 токенов, примерно 100 страниц текста. Жаль, что не показали результаты замера с генерацией одного решения.
— кажется, что 100 страниц это очень много и «модели очень глупые раз нужно столько писать» (тупейший аргумент кста), но на самом деле это может снова быть связано с форматом входных данных. Каждая клетка в сетке для задачи — это одна цифра плюс запятая. Сетка 20x20 квадратов — это уже 400+ токенов, страница текста в представлении LLM.
— и вот при таком подходе получилось 75%, планка взята, никаких суперультрабезумных затрат в миллионы долларов нет.
— Что плохо: мне не удалось найти, какие настройки o3 использовались. OpenAI показывали, что и для o1, и для o3 есть настройка длины и интенсивности цепочек рассуждений (low, medium и high), чтобы контролировать цену. Больше платишь = модель рассуждате дольше = ответы лучше. Аккуратно предположу, что 55'000 токенов — это средний режим рассуждений (он стоит у o1 пол умолчанию), не очень коротко, но и не очень долго.
— теперь к флекс-режиму. Он отличается тем, что вместо 6 решений генерируется 1024, и уже среди них выбирается одно или два самых популярных. Отсюда увеличение в ~170 раз (1024 / 6), в том числе и по цене: вместо $10'000 нужно потратить $1.7M. Это приносит свои плоды — качество вырастает с 75.7% до 87.5%. Обратите внимание, что это не «87.5% при возможности отправить 1024 ответа»: ответов отправляется 1 или 2, и они выбираются из этого множества генераций автоматически, без вмешательства человека и без доступа к истинному ответу. Вам не нужно в жизни генерировать и отсматривать столько решений.

Так что результаты, сравнимые со средними человеческим, можно получать в рамках относительно разумных затрат.

UPD к предыдущему посту: меня поправили и указали, что 300 задач для тренировки — это отдельные задачи, выделенные именно для тренировки, не связанные с 400, на которых мерили качество (но для них ответы всё равно доступны). Это никак не меняет канву повествования, кроме как подкрепляет тезис, что эти 400 и новые 100 сильно отличаются (так как качество просаживается, но всё равно остаётся высоким).



group-telegram.com/seeallochnaya/2164
Create:
Last Update:

Вторая заметка, про цену использования o3:
— сам по себе бенчмарк подразумевает, что нужно достигнуть определённого уровня (75%) с учётом ограничения на вычислительные мощности, конвертированные в доллары ($10000 за 500 задач, 400 общедоступных + 100 секретных; $20 за задачу, в среднем человеку платили где-то $4-5)
— на ARC свежая модель OpenAI тестировалась двумя способами: чтобы уложиться в это ограничение, и чтобы пофлексить мускулами и показать наилучший возможный результат, потратив гораздо, нет, ГОРАЗДО больше денег.
— первый сетап, чтобы уложиться в $20 на задачу: модель параллельно и независимо генерирует 6 вариантов ответа, и затем из них выбирается один или два, который появлялся чаще всего (вообще ARC позволяет и людям делать 2 попытки, и обычно модели замеряют также, а тут не уточнили; по умолчанию считаю, что тоже 2, но это не важно).
— при этом цена использования o3 не сообщалась, и при расчётах используются цены на o1 (ведь она уже выпущена). Я делаю аккуратное предположение, что скорее всего модель будет стоить столько же, и что она, видимо, имеет примерно те же самые размеры (по крайней мере количество активных параметров). Увидим в январе-феврале '25-го, тут вообще спекуляция.
— для 100 приватных задач модель сгенерировала 33 миллиона токенов решений, то есть каждое решение (из 6 для задачи) в среднем имело длину 33M / 100 / 6 = 55'000 токенов, примерно 100 страниц текста. Жаль, что не показали результаты замера с генерацией одного решения.
— кажется, что 100 страниц это очень много и «модели очень глупые раз нужно столько писать» (тупейший аргумент кста), но на самом деле это может снова быть связано с форматом входных данных. Каждая клетка в сетке для задачи — это одна цифра плюс запятая. Сетка 20x20 квадратов — это уже 400+ токенов, страница текста в представлении LLM.
— и вот при таком подходе получилось 75%, планка взята, никаких суперультрабезумных затрат в миллионы долларов нет.
— Что плохо: мне не удалось найти, какие настройки o3 использовались. OpenAI показывали, что и для o1, и для o3 есть настройка длины и интенсивности цепочек рассуждений (low, medium и high), чтобы контролировать цену. Больше платишь = модель рассуждате дольше = ответы лучше. Аккуратно предположу, что 55'000 токенов — это средний режим рассуждений (он стоит у o1 пол умолчанию), не очень коротко, но и не очень долго.
— теперь к флекс-режиму. Он отличается тем, что вместо 6 решений генерируется 1024, и уже среди них выбирается одно или два самых популярных. Отсюда увеличение в ~170 раз (1024 / 6), в том числе и по цене: вместо $10'000 нужно потратить $1.7M. Это приносит свои плоды — качество вырастает с 75.7% до 87.5%. Обратите внимание, что это не «87.5% при возможности отправить 1024 ответа»: ответов отправляется 1 или 2, и они выбираются из этого множества генераций автоматически, без вмешательства человека и без доступа к истинному ответу. Вам не нужно в жизни генерировать и отсматривать столько решений.

Так что результаты, сравнимые со средними человеческим, можно получать в рамках относительно разумных затрат.

UPD к предыдущему посту: меня поправили и указали, что 300 задач для тренировки — это отдельные задачи, выделенные именно для тренировки, не связанные с 400, на которых мерили качество (но для них ответы всё равно доступны). Это никак не меняет канву повествования, кроме как подкрепляет тезис, что эти 400 и новые 100 сильно отличаются (так как качество просаживается, но всё равно остаётся высоким).

BY Сиолошная


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/seeallochnaya/2164

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

He said that since his platform does not have the capacity to check all channels, it may restrict some in Russia and Ukraine "for the duration of the conflict," but then reversed course hours later after many users complained that Telegram was an important source of information. But Telegram says people want to keep their chat history when they get a new phone, and they like having a data backup that will sync their chats across multiple devices. And that is why they let people choose whether they want their messages to be encrypted or not. When not turned on, though, chats are stored on Telegram's services, which are scattered throughout the world. But it has "disclosed 0 bytes of user data to third parties, including governments," Telegram states on its website. The SC urges the public to refer to the SC’s I nvestor Alert List before investing. The list contains details of unauthorised websites, investment products, companies and individuals. Members of the public who suspect that they have been approached by unauthorised firms or individuals offering schemes that promise unrealistic returns In view of this, the regulator has cautioned investors not to rely on such investment tips / advice received through social media platforms. It has also said investors should exercise utmost caution while taking investment decisions while dealing in the securities market. Perpetrators of such fraud use various marketing techniques to attract subscribers on their social media channels.
from pl


Telegram Сиолошная
FROM American