Notice: file_put_contents(): Write of 4568 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 8192 of 12760 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
Сиолошная | Telegram Webview: seeallochnaya/2164 -
Telegram Group & Telegram Channel
Вторая заметка, про цену использования o3:
— сам по себе бенчмарк подразумевает, что нужно достигнуть определённого уровня (75%) с учётом ограничения на вычислительные мощности, конвертированные в доллары ($10000 за 500 задач, 400 общедоступных + 100 секретных; $20 за задачу, в среднем человеку платили где-то $4-5)
— на ARC свежая модель OpenAI тестировалась двумя способами: чтобы уложиться в это ограничение, и чтобы пофлексить мускулами и показать наилучший возможный результат, потратив гораздо, нет, ГОРАЗДО больше денег.
— первый сетап, чтобы уложиться в $20 на задачу: модель параллельно и независимо генерирует 6 вариантов ответа, и затем из них выбирается один или два, который появлялся чаще всего (вообще ARC позволяет и людям делать 2 попытки, и обычно модели замеряют также, а тут не уточнили; по умолчанию считаю, что тоже 2, но это не важно).
— при этом цена использования o3 не сообщалась, и при расчётах используются цены на o1 (ведь она уже выпущена). Я делаю аккуратное предположение, что скорее всего модель будет стоить столько же, и что она, видимо, имеет примерно те же самые размеры (по крайней мере количество активных параметров). Увидим в январе-феврале '25-го, тут вообще спекуляция.
— для 100 приватных задач модель сгенерировала 33 миллиона токенов решений, то есть каждое решение (из 6 для задачи) в среднем имело длину 33M / 100 / 6 = 55'000 токенов, примерно 100 страниц текста. Жаль, что не показали результаты замера с генерацией одного решения.
— кажется, что 100 страниц это очень много и «модели очень глупые раз нужно столько писать» (тупейший аргумент кста), но на самом деле это может снова быть связано с форматом входных данных. Каждая клетка в сетке для задачи — это одна цифра плюс запятая. Сетка 20x20 квадратов — это уже 400+ токенов, страница текста в представлении LLM.
— и вот при таком подходе получилось 75%, планка взята, никаких суперультрабезумных затрат в миллионы долларов нет.
— Что плохо: мне не удалось найти, какие настройки o3 использовались. OpenAI показывали, что и для o1, и для o3 есть настройка длины и интенсивности цепочек рассуждений (low, medium и high), чтобы контролировать цену. Больше платишь = модель рассуждате дольше = ответы лучше. Аккуратно предположу, что 55'000 токенов — это средний режим рассуждений (он стоит у o1 пол умолчанию), не очень коротко, но и не очень долго.
— теперь к флекс-режиму. Он отличается тем, что вместо 6 решений генерируется 1024, и уже среди них выбирается одно или два самых популярных. Отсюда увеличение в ~170 раз (1024 / 6), в том числе и по цене: вместо $10'000 нужно потратить $1.7M. Это приносит свои плоды — качество вырастает с 75.7% до 87.5%. Обратите внимание, что это не «87.5% при возможности отправить 1024 ответа»: ответов отправляется 1 или 2, и они выбираются из этого множества генераций автоматически, без вмешательства человека и без доступа к истинному ответу. Вам не нужно в жизни генерировать и отсматривать столько решений.

Так что результаты, сравнимые со средними человеческим, можно получать в рамках относительно разумных затрат.

UPD к предыдущему посту: меня поправили и указали, что 300 задач для тренировки — это отдельные задачи, выделенные именно для тренировки, не связанные с 400, на которых мерили качество (но для них ответы всё равно доступны). Это никак не меняет канву повествования, кроме как подкрепляет тезис, что эти 400 и новые 100 сильно отличаются (так как качество просаживается, но всё равно остаётся высоким).



group-telegram.com/seeallochnaya/2164
Create:
Last Update:

Вторая заметка, про цену использования o3:
— сам по себе бенчмарк подразумевает, что нужно достигнуть определённого уровня (75%) с учётом ограничения на вычислительные мощности, конвертированные в доллары ($10000 за 500 задач, 400 общедоступных + 100 секретных; $20 за задачу, в среднем человеку платили где-то $4-5)
— на ARC свежая модель OpenAI тестировалась двумя способами: чтобы уложиться в это ограничение, и чтобы пофлексить мускулами и показать наилучший возможный результат, потратив гораздо, нет, ГОРАЗДО больше денег.
— первый сетап, чтобы уложиться в $20 на задачу: модель параллельно и независимо генерирует 6 вариантов ответа, и затем из них выбирается один или два, который появлялся чаще всего (вообще ARC позволяет и людям делать 2 попытки, и обычно модели замеряют также, а тут не уточнили; по умолчанию считаю, что тоже 2, но это не важно).
— при этом цена использования o3 не сообщалась, и при расчётах используются цены на o1 (ведь она уже выпущена). Я делаю аккуратное предположение, что скорее всего модель будет стоить столько же, и что она, видимо, имеет примерно те же самые размеры (по крайней мере количество активных параметров). Увидим в январе-феврале '25-го, тут вообще спекуляция.
— для 100 приватных задач модель сгенерировала 33 миллиона токенов решений, то есть каждое решение (из 6 для задачи) в среднем имело длину 33M / 100 / 6 = 55'000 токенов, примерно 100 страниц текста. Жаль, что не показали результаты замера с генерацией одного решения.
— кажется, что 100 страниц это очень много и «модели очень глупые раз нужно столько писать» (тупейший аргумент кста), но на самом деле это может снова быть связано с форматом входных данных. Каждая клетка в сетке для задачи — это одна цифра плюс запятая. Сетка 20x20 квадратов — это уже 400+ токенов, страница текста в представлении LLM.
— и вот при таком подходе получилось 75%, планка взята, никаких суперультрабезумных затрат в миллионы долларов нет.
— Что плохо: мне не удалось найти, какие настройки o3 использовались. OpenAI показывали, что и для o1, и для o3 есть настройка длины и интенсивности цепочек рассуждений (low, medium и high), чтобы контролировать цену. Больше платишь = модель рассуждате дольше = ответы лучше. Аккуратно предположу, что 55'000 токенов — это средний режим рассуждений (он стоит у o1 пол умолчанию), не очень коротко, но и не очень долго.
— теперь к флекс-режиму. Он отличается тем, что вместо 6 решений генерируется 1024, и уже среди них выбирается одно или два самых популярных. Отсюда увеличение в ~170 раз (1024 / 6), в том числе и по цене: вместо $10'000 нужно потратить $1.7M. Это приносит свои плоды — качество вырастает с 75.7% до 87.5%. Обратите внимание, что это не «87.5% при возможности отправить 1024 ответа»: ответов отправляется 1 или 2, и они выбираются из этого множества генераций автоматически, без вмешательства человека и без доступа к истинному ответу. Вам не нужно в жизни генерировать и отсматривать столько решений.

Так что результаты, сравнимые со средними человеческим, можно получать в рамках относительно разумных затрат.

UPD к предыдущему посту: меня поправили и указали, что 300 задач для тренировки — это отдельные задачи, выделенные именно для тренировки, не связанные с 400, на которых мерили качество (но для них ответы всё равно доступны). Это никак не меняет канву повествования, кроме как подкрепляет тезис, что эти 400 и новые 100 сильно отличаются (так как качество просаживается, но всё равно остаётся высоким).

BY Сиолошная


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/seeallochnaya/2164

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Elsewhere, version 8.6 of Telegram integrates the in-app camera option into the gallery, while a new navigation bar gives quick access to photos, files, location sharing, and more. The account, "War on Fakes," was created on February 24, the same day Russian President Vladimir Putin announced a "special military operation" and troops began invading Ukraine. The page is rife with disinformation, according to The Atlantic Council's Digital Forensic Research Lab, which studies digital extremism and published a report examining the channel. "Someone posing as a Ukrainian citizen just joins the chat and starts spreading misinformation, or gathers data, like the location of shelters," Tsekhanovska said, noting how false messages have urged Ukrainians to turn off their phones at a specific time of night, citing cybersafety. The company maintains that it cannot act against individual or group chats, which are “private amongst their participants,” but it will respond to requests in relation to sticker sets, channels and bots which are publicly available. During the invasion of Ukraine, Pavel Durov has wrestled with this issue a lot more prominently than he has before. Channels like Donbass Insider and Bellum Acta, as reported by Foreign Policy, started pumping out pro-Russian propaganda as the invasion began. So much so that the Ukrainian National Security and Defense Council issued a statement labeling which accounts are Russian-backed. Ukrainian officials, in potential violation of the Geneva Convention, have shared imagery of dead and captured Russian soldiers on the platform. The channel appears to be part of the broader information war that has developed following Russia's invasion of Ukraine. The Kremlin has paid Russian TikTok influencers to push propaganda, according to a Vice News investigation, while ProPublica found that fake Russian fact check videos had been viewed over a million times on Telegram.
from us


Telegram Сиолошная
FROM American