Telegram Group & Telegram Channel
В свежей рассылке от Semianalysis пишут, что Nvidia всего через 6 месяцев после релиза своих GPU B200 и GB200 уже готовится к выпуску 300-й серии. Хоть это может звучать минорно, на самом деле на ряд задач и экономику моделей это повлияет существенно. Почему? Давайте смотреть.

Сама карта станет помощнее (ожидается, что на 50% больше FLOPs, чем у H200) за счёт нового дизайна/увеличения потребления энергии/etc, но это не самое интересное. В 300-й серии будет по 288 гигабайт памяти (против 141 у 200 и 80/94 у 100).

Улучшения памяти являются ключевыми для обучения и применения «рассуждающих» моделей вроде o1/o3 из-за длины генерируемого ответа, раздувающего кол-во промежуточной информации, которую нужно хранить (KVCache), что критически сказывается на задержке в ответе и количество одновременных запросов.

Вот как выглядит разница между уже существующими 100-й и 200-й версиями. На бумаге у них полностью одинаковые FLOPs (во всех форматах вычислений, от INT8 до FP64, смотрите тут и тут), отличается объем памяти (и её пропускная способность, так как больше чипов — можно одновременно грузить каждый из них в параллель).

Взяли LLAMA-405B, запустили в FP8, подали на вход 1 тысячу токенов и генерировали 19 тысяч — то есть примерно как у o1/o3, когда рассуждения в ответе куда больше исходной задачи.

По оси OX отмечено количество одновременных запросов (грубо говоря сколько пользователей ждут ответа), по OY — сколько токенов в секунду будет у каждого. Больше пользователей = меньше скорость у каждого.

Видно, что карта с большим количеством памяти существенно расширяет возможности предоставляемых услуг: либо можно выдавать ответы куда быстрее, либо одновременно обслуживать больше клиентов. Для последнего — если мы целимся в чуть более чем 50 токенов в секунду на пользователя (это чуть меньше, чем выдают OpenAI), то сервер с B100 может держать 20-25 пользователей, а B200 — больше 65. И это только из-за увеличения памяти.

«ну а чо такого, ясно карта дороже = лучше, и?» — могли подумать вы. А дело в том, что по подсчётам Semianalysis выходит, что B200 примерно в 3 раза выгоднее по себестоимости токена. А карта-то стоит сильно меньше, чем x3 от B100 (ведь чипы у них фактически одинаковые). Поэтому В Ы Г О Д А.

С переездом компаний на B300 стоит ожидать дальнейших а) падения цен б) ускорения ответов в) удлинения цепочек рассуждений.



group-telegram.com/seeallochnaya/2171
Create:
Last Update:

В свежей рассылке от Semianalysis пишут, что Nvidia всего через 6 месяцев после релиза своих GPU B200 и GB200 уже готовится к выпуску 300-й серии. Хоть это может звучать минорно, на самом деле на ряд задач и экономику моделей это повлияет существенно. Почему? Давайте смотреть.

Сама карта станет помощнее (ожидается, что на 50% больше FLOPs, чем у H200) за счёт нового дизайна/увеличения потребления энергии/etc, но это не самое интересное. В 300-й серии будет по 288 гигабайт памяти (против 141 у 200 и 80/94 у 100).

Улучшения памяти являются ключевыми для обучения и применения «рассуждающих» моделей вроде o1/o3 из-за длины генерируемого ответа, раздувающего кол-во промежуточной информации, которую нужно хранить (KVCache), что критически сказывается на задержке в ответе и количество одновременных запросов.

Вот как выглядит разница между уже существующими 100-й и 200-й версиями. На бумаге у них полностью одинаковые FLOPs (во всех форматах вычислений, от INT8 до FP64, смотрите тут и тут), отличается объем памяти (и её пропускная способность, так как больше чипов — можно одновременно грузить каждый из них в параллель).

Взяли LLAMA-405B, запустили в FP8, подали на вход 1 тысячу токенов и генерировали 19 тысяч — то есть примерно как у o1/o3, когда рассуждения в ответе куда больше исходной задачи.

По оси OX отмечено количество одновременных запросов (грубо говоря сколько пользователей ждут ответа), по OY — сколько токенов в секунду будет у каждого. Больше пользователей = меньше скорость у каждого.

Видно, что карта с большим количеством памяти существенно расширяет возможности предоставляемых услуг: либо можно выдавать ответы куда быстрее, либо одновременно обслуживать больше клиентов. Для последнего — если мы целимся в чуть более чем 50 токенов в секунду на пользователя (это чуть меньше, чем выдают OpenAI), то сервер с B100 может держать 20-25 пользователей, а B200 — больше 65. И это только из-за увеличения памяти.

«ну а чо такого, ясно карта дороже = лучше, и?» — могли подумать вы. А дело в том, что по подсчётам Semianalysis выходит, что B200 примерно в 3 раза выгоднее по себестоимости токена. А карта-то стоит сильно меньше, чем x3 от B100 (ведь чипы у них фактически одинаковые). Поэтому В Ы Г О Д А.

С переездом компаний на B300 стоит ожидать дальнейших а) падения цен б) ускорения ответов в) удлинения цепочек рассуждений.

BY Сиолошная




Share with your friend now:
group-telegram.com/seeallochnaya/2171

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"Someone posing as a Ukrainian citizen just joins the chat and starts spreading misinformation, or gathers data, like the location of shelters," Tsekhanovska said, noting how false messages have urged Ukrainians to turn off their phones at a specific time of night, citing cybersafety. Stocks closed in the red Friday as investors weighed upbeat remarks from Russian President Vladimir Putin about diplomatic discussions with Ukraine against a weaker-than-expected print on U.S. consumer sentiment. Ukrainian forces successfully attacked Russian vehicles in the capital city of Kyiv thanks to a public tip made through the encrypted messaging app Telegram, Ukraine's top law-enforcement agency said on Tuesday. The Securities and Exchange Board of India (Sebi) had carried out a similar exercise in 2017 in a matter related to circulation of messages through WhatsApp. Telegram has gained a reputation as the “secure” communications app in the post-Soviet states, but whenever you make choices about your digital security, it’s important to start by asking yourself, “What exactly am I securing? And who am I securing it from?” These questions should inform your decisions about whether you are using the right tool or platform for your digital security needs. Telegram is certainly not the most secure messaging app on the market right now. Its security model requires users to place a great deal of trust in Telegram’s ability to protect user data. For some users, this may be good enough for now. For others, it may be wiser to move to a different platform for certain kinds of high-risk communications.
from ua


Telegram Сиолошная
FROM American