Telegram Group & Telegram Channel
Сколько на самом деле стоит инференс GPT-4o?

Почему-то многие думают, что провайдеры больших языковых моделей продают API чуть ли не себе в убыток. Я бы хотел поделиться прикидками о том, почему это совсем не так, и заодно помечтать о том, сколько параметров мы можем себе позволить тратить на модель, которая сможет заменить человека в работе.

Все расчёты можно воспроизвести в колабе, меняя цифры, как вам захочется. Выводы остаются неизменны.

Для расчётов нам нужно сделать несколько допущений:
1. Количество активированных параметров в модели. Для GPT 4 Turbo широко ходили слухи про 200 миллиардов параметров, так что 4o должна быть меньше. По данным Artificial Analysis, пропускная способность GPT-4o – 95 tok/s, что находится между LLama 3.1 7b (182 tok/s) и 70b (80 tok/s). Для наших целей предположим, что в 4o 100 миллиардов активированных параметров, делая скидку на то, что в OpenAI инференсом занимаются крайне толковые люди. Кстати, Gemini Flash 1.5 с последним обновлением выдаёт 330 tok/s.
2. Амортизированная стоимость сервера с 8 H100. Чтобы не сильно расстраиваться, возьмём оценку сверху как цену такого сервера на AWS – на сегодняшний день $39.33 в час. На рынке цены могут быть минимум в пять раз меньше.
3. MFU – какой процент вычислений используется эффективно. Стандартом является 30-50%, для наших прикидок возьмём 30%.

При таких допущениях (а с другими вы можете поиграть в колабе), стоимость инференса миллиона токенов получается $0.23. Сравним это с официальной ценой в $2.5 за input и $10 за output и получим наценку API в ~50 раз. И это – оценка сверху со всеми допущениями в сторону удорожания. С другой стороны, кому-то же надо скидываться Саме на Koenigsegg. 😮‍💨

Заодно мы можем посчитать, насколько дешевле модели в сравнении с кожаными мешками. Взяв минимальную зарплату в Нью-Йорке ($16) и производительность в 100 токенов в минуту (среднее у людей примерно 50 слов в минуту), получим стоимость миллиона токенов в $2666.67. Даже o1 со своими $60 / Mtok тут рядом не стоит. Есть, куда расти!
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/epsiloncorrect/204
Create:
Last Update:

Сколько на самом деле стоит инференс GPT-4o?

Почему-то многие думают, что провайдеры больших языковых моделей продают API чуть ли не себе в убыток. Я бы хотел поделиться прикидками о том, почему это совсем не так, и заодно помечтать о том, сколько параметров мы можем себе позволить тратить на модель, которая сможет заменить человека в работе.

Все расчёты можно воспроизвести в колабе, меняя цифры, как вам захочется. Выводы остаются неизменны.

Для расчётов нам нужно сделать несколько допущений:
1. Количество активированных параметров в модели. Для GPT 4 Turbo широко ходили слухи про 200 миллиардов параметров, так что 4o должна быть меньше. По данным Artificial Analysis, пропускная способность GPT-4o – 95 tok/s, что находится между LLama 3.1 7b (182 tok/s) и 70b (80 tok/s). Для наших целей предположим, что в 4o 100 миллиардов активированных параметров, делая скидку на то, что в OpenAI инференсом занимаются крайне толковые люди. Кстати, Gemini Flash 1.5 с последним обновлением выдаёт 330 tok/s.
2. Амортизированная стоимость сервера с 8 H100. Чтобы не сильно расстраиваться, возьмём оценку сверху как цену такого сервера на AWS – на сегодняшний день $39.33 в час. На рынке цены могут быть минимум в пять раз меньше.
3. MFU – какой процент вычислений используется эффективно. Стандартом является 30-50%, для наших прикидок возьмём 30%.

При таких допущениях (а с другими вы можете поиграть в колабе), стоимость инференса миллиона токенов получается $0.23. Сравним это с официальной ценой в $2.5 за input и $10 за output и получим наценку API в ~50 раз. И это – оценка сверху со всеми допущениями в сторону удорожания. С другой стороны, кому-то же надо скидываться Саме на Koenigsegg. 😮‍💨

Заодно мы можем посчитать, насколько дешевле модели в сравнении с кожаными мешками. Взяв минимальную зарплату в Нью-Йорке ($16) и производительность в 100 токенов в минуту (среднее у людей примерно 50 слов в минуту), получим стоимость миллиона токенов в $2666.67. Даже o1 со своими $60 / Mtok тут рядом не стоит. Есть, куда расти!

BY epsilon correct


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/epsiloncorrect/204

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In 2014, Pavel Durov fled the country after allies of the Kremlin took control of the social networking site most know just as VK. Russia's intelligence agency had asked Durov to turn over the data of anti-Kremlin protesters. Durov refused to do so. You may recall that, back when Facebook started changing WhatsApp’s terms of service, a number of news outlets reported on, and even recommended, switching to Telegram. Pavel Durov even said that users should delete WhatsApp “unless you are cool with all of your photos and messages becoming public one day.” But Telegram can’t be described as a more-secure version of WhatsApp. The picture was mixed overseas. Hong Kong’s Hang Seng Index fell 1.6%, under pressure from U.S. regulatory scrutiny on New York-listed Chinese companies. Stocks were more buoyant in Europe, where Frankfurt’s DAX surged 1.4%. On February 27th, Durov posted that Channels were becoming a source of unverified information and that the company lacks the ability to check on their veracity. He urged users to be mistrustful of the things shared on Channels, and initially threatened to block the feature in the countries involved for the length of the war, saying that he didn’t want Telegram to be used to aggravate conflict or incite ethnic hatred. He did, however, walk back this plan when it became clear that they had also become a vital communications tool for Ukrainian officials and citizens to help coordinate their resistance and evacuations. Ukrainian forces have since put up a strong resistance to the Russian troops amid the war that has left hundreds of Ukrainian civilians, including children, dead, according to the United Nations. Ukrainian and international officials have accused Russia of targeting civilian populations with shelling and bombardments.
from ar


Telegram epsilon correct
FROM American