Telegram Group & Telegram Channel
Forwarded from epsilon correct
Сколько на самом деле стоит инференс GPT-4o?

Почему-то многие думают, что провайдеры больших языковых моделей продают API чуть ли не себе в убыток. Я бы хотел поделиться прикидками о том, почему это совсем не так, и заодно помечтать о том, сколько параметров мы можем себе позволить тратить на модель, которая сможет заменить человека в работе.

Все расчёты можно воспроизвести в колабе, меняя цифры, как вам захочется. Выводы остаются неизменны.

Для расчётов нам нужно сделать несколько допущений:
1. Количество активированных параметров в модели. Для GPT 4 Turbo широко ходили слухи про 200 миллиардов параметров, так что 4o должна быть меньше. По данным Artificial Analysis, пропускная способность GPT-4o – 95 tok/s, что находится между LLama 3.1 7b (182 tok/s) и 70b (80 tok/s). Для наших целей предположим, что в 4o 100 миллиардов активированных параметров, делая скидку на то, что в OpenAI инференсом занимаются крайне толковые люди. Кстати, Gemini Flash 1.5 с последним обновлением выдаёт 330 tok/s.
2. Амортизированная стоимость сервера с 8 H100. Чтобы не сильно расстраиваться, возьмём оценку сверху как цену такого сервера на AWS – на сегодняшний день $39.33 в час. На рынке цены могут быть минимум в пять раз меньше.
3. MFU – какой процент вычислений используется эффективно. Стандартом является 30-50%, для наших прикидок возьмём 30%.

При таких допущениях (а с другими вы можете поиграть в колабе), стоимость инференса миллиона токенов получается $0.23. Сравним это с официальной ценой в $2.5 за input и $10 за output и получим наценку API в ~50 раз. И это – оценка сверху со всеми допущениями в сторону удорожания. С другой стороны, кому-то же надо скидываться Саме на Koenigsegg. 😮‍💨

Заодно мы можем посчитать, насколько дешевле модели в сравнении с кожаными мешками. Взяв минимальную зарплату в Нью-Йорке ($16) и производительность в 100 токенов в минуту (среднее у людей примерно 50 слов в минуту), получим стоимость миллиона токенов в $2666.67. Даже o1 со своими $60 / Mtok тут рядом не стоит. Есть, куда расти!
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/seeallochnaya/1795
Create:
Last Update:

Сколько на самом деле стоит инференс GPT-4o?

Почему-то многие думают, что провайдеры больших языковых моделей продают API чуть ли не себе в убыток. Я бы хотел поделиться прикидками о том, почему это совсем не так, и заодно помечтать о том, сколько параметров мы можем себе позволить тратить на модель, которая сможет заменить человека в работе.

Все расчёты можно воспроизвести в колабе, меняя цифры, как вам захочется. Выводы остаются неизменны.

Для расчётов нам нужно сделать несколько допущений:
1. Количество активированных параметров в модели. Для GPT 4 Turbo широко ходили слухи про 200 миллиардов параметров, так что 4o должна быть меньше. По данным Artificial Analysis, пропускная способность GPT-4o – 95 tok/s, что находится между LLama 3.1 7b (182 tok/s) и 70b (80 tok/s). Для наших целей предположим, что в 4o 100 миллиардов активированных параметров, делая скидку на то, что в OpenAI инференсом занимаются крайне толковые люди. Кстати, Gemini Flash 1.5 с последним обновлением выдаёт 330 tok/s.
2. Амортизированная стоимость сервера с 8 H100. Чтобы не сильно расстраиваться, возьмём оценку сверху как цену такого сервера на AWS – на сегодняшний день $39.33 в час. На рынке цены могут быть минимум в пять раз меньше.
3. MFU – какой процент вычислений используется эффективно. Стандартом является 30-50%, для наших прикидок возьмём 30%.

При таких допущениях (а с другими вы можете поиграть в колабе), стоимость инференса миллиона токенов получается $0.23. Сравним это с официальной ценой в $2.5 за input и $10 за output и получим наценку API в ~50 раз. И это – оценка сверху со всеми допущениями в сторону удорожания. С другой стороны, кому-то же надо скидываться Саме на Koenigsegg. 😮‍💨

Заодно мы можем посчитать, насколько дешевле модели в сравнении с кожаными мешками. Взяв минимальную зарплату в Нью-Йорке ($16) и производительность в 100 токенов в минуту (среднее у людей примерно 50 слов в минуту), получим стоимость миллиона токенов в $2666.67. Даже o1 со своими $60 / Mtok тут рядом не стоит. Есть, куда расти!

BY Сиолошная


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/seeallochnaya/1795

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Investors took profits on Friday while they could ahead of the weekend, explained Tom Essaye, founder of Sevens Report Research. Saturday and Sunday could easily bring unfortunate news on the war front—and traders would rather be able to sell any recent winnings at Friday’s earlier prices than wait for a potentially lower price at Monday’s open. "We as Ukrainians believe that the truth is on our side, whether it's truth that you're proclaiming about the war and everything else, why would you want to hide it?," he said. The Security Service of Ukraine said in a tweet that it was able to effectively target Russian convoys near Kyiv because of messages sent to an official Telegram bot account called "STOP Russian War." The fake Zelenskiy account reached 20,000 followers on Telegram before it was shut down, a remedial action that experts say is all too rare. The perpetrators use various names to carry out the investment scams. They may also impersonate or clone licensed capital market intermediaries by using the names, logos, credentials, websites and other details of the legitimate entities to promote the illegal schemes.
from kr


Telegram Сиолошная
FROM American