Telegram Group & Telegram Channel
Forwarded from epsilon correct
Сколько на самом деле стоит инференс GPT-4o?

Почему-то многие думают, что провайдеры больших языковых моделей продают API чуть ли не себе в убыток. Я бы хотел поделиться прикидками о том, почему это совсем не так, и заодно помечтать о том, сколько параметров мы можем себе позволить тратить на модель, которая сможет заменить человека в работе.

Все расчёты можно воспроизвести в колабе, меняя цифры, как вам захочется. Выводы остаются неизменны.

Для расчётов нам нужно сделать несколько допущений:
1. Количество активированных параметров в модели. Для GPT 4 Turbo широко ходили слухи про 200 миллиардов параметров, так что 4o должна быть меньше. По данным Artificial Analysis, пропускная способность GPT-4o – 95 tok/s, что находится между LLama 3.1 7b (182 tok/s) и 70b (80 tok/s). Для наших целей предположим, что в 4o 100 миллиардов активированных параметров, делая скидку на то, что в OpenAI инференсом занимаются крайне толковые люди. Кстати, Gemini Flash 1.5 с последним обновлением выдаёт 330 tok/s.
2. Амортизированная стоимость сервера с 8 H100. Чтобы не сильно расстраиваться, возьмём оценку сверху как цену такого сервера на AWS – на сегодняшний день $39.33 в час. На рынке цены могут быть минимум в пять раз меньше.
3. MFU – какой процент вычислений используется эффективно. Стандартом является 30-50%, для наших прикидок возьмём 30%.

При таких допущениях (а с другими вы можете поиграть в колабе), стоимость инференса миллиона токенов получается $0.23. Сравним это с официальной ценой в $2.5 за input и $10 за output и получим наценку API в ~50 раз. И это – оценка сверху со всеми допущениями в сторону удорожания. С другой стороны, кому-то же надо скидываться Саме на Koenigsegg. 😮‍💨

Заодно мы можем посчитать, насколько дешевле модели в сравнении с кожаными мешками. Взяв минимальную зарплату в Нью-Йорке ($16) и производительность в 100 токенов в минуту (среднее у людей примерно 50 слов в минуту), получим стоимость миллиона токенов в $2666.67. Даже o1 со своими $60 / Mtok тут рядом не стоит. Есть, куда расти!
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/seeallochnaya/1795
Create:
Last Update:

Сколько на самом деле стоит инференс GPT-4o?

Почему-то многие думают, что провайдеры больших языковых моделей продают API чуть ли не себе в убыток. Я бы хотел поделиться прикидками о том, почему это совсем не так, и заодно помечтать о том, сколько параметров мы можем себе позволить тратить на модель, которая сможет заменить человека в работе.

Все расчёты можно воспроизвести в колабе, меняя цифры, как вам захочется. Выводы остаются неизменны.

Для расчётов нам нужно сделать несколько допущений:
1. Количество активированных параметров в модели. Для GPT 4 Turbo широко ходили слухи про 200 миллиардов параметров, так что 4o должна быть меньше. По данным Artificial Analysis, пропускная способность GPT-4o – 95 tok/s, что находится между LLama 3.1 7b (182 tok/s) и 70b (80 tok/s). Для наших целей предположим, что в 4o 100 миллиардов активированных параметров, делая скидку на то, что в OpenAI инференсом занимаются крайне толковые люди. Кстати, Gemini Flash 1.5 с последним обновлением выдаёт 330 tok/s.
2. Амортизированная стоимость сервера с 8 H100. Чтобы не сильно расстраиваться, возьмём оценку сверху как цену такого сервера на AWS – на сегодняшний день $39.33 в час. На рынке цены могут быть минимум в пять раз меньше.
3. MFU – какой процент вычислений используется эффективно. Стандартом является 30-50%, для наших прикидок возьмём 30%.

При таких допущениях (а с другими вы можете поиграть в колабе), стоимость инференса миллиона токенов получается $0.23. Сравним это с официальной ценой в $2.5 за input и $10 за output и получим наценку API в ~50 раз. И это – оценка сверху со всеми допущениями в сторону удорожания. С другой стороны, кому-то же надо скидываться Саме на Koenigsegg. 😮‍💨

Заодно мы можем посчитать, насколько дешевле модели в сравнении с кожаными мешками. Взяв минимальную зарплату в Нью-Йорке ($16) и производительность в 100 токенов в минуту (среднее у людей примерно 50 слов в минуту), получим стоимость миллиона токенов в $2666.67. Даже o1 со своими $60 / Mtok тут рядом не стоит. Есть, куда расти!

BY Сиолошная


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/seeallochnaya/1795

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Ukrainian forces successfully attacked Russian vehicles in the capital city of Kyiv thanks to a public tip made through the encrypted messaging app Telegram, Ukraine's top law-enforcement agency said on Tuesday. "We're seeing really dramatic moves, and it's all really tied to Ukraine right now, and in a secondary way, in terms of interest rates," Octavio Marenzi, CEO of Opimas, told Yahoo Finance Live on Thursday. "This war in Ukraine is going to give the Fed the ammunition, the cover that it needs, to not raise interest rates too quickly. And I think Jay Powell is a very tepid sort of inflation fighter and he's not going to do as much as he needs to do to get that under control. And this seems like an excuse to kick the can further down the road still and not do too much too soon." He said that since his platform does not have the capacity to check all channels, it may restrict some in Russia and Ukraine "for the duration of the conflict," but then reversed course hours later after many users complained that Telegram was an important source of information. Telegram was co-founded by Pavel and Nikolai Durov, the brothers who had previously created VKontakte. VK is Russia’s equivalent of Facebook, a social network used for public and private messaging, audio and video sharing as well as online gaming. In January, SimpleWeb reported that VK was Russia’s fourth most-visited website, after Yandex, YouTube and Google’s Russian-language homepage. In 2016, Forbes’ Michael Solomon described Pavel Durov (pictured, below) as the “Mark Zuckerberg of Russia.” It is unclear who runs the account, although Russia's official Ministry of Foreign Affairs Twitter account promoted the Telegram channel on Saturday and claimed it was operated by "a group of experts & journalists."
from fr


Telegram Сиолошная
FROM American