group-telegram.com/seeallochnaya/2171
Last Update:
В свежей рассылке от Semianalysis пишут, что Nvidia всего через 6 месяцев после релиза своих GPU B200 и GB200 уже готовится к выпуску 300-й серии. Хоть это может звучать минорно, на самом деле на ряд задач и экономику моделей это повлияет существенно. Почему? Давайте смотреть.
Сама карта станет помощнее (ожидается, что на 50% больше FLOPs, чем у H200) за счёт нового дизайна/увеличения потребления энергии/etc, но это не самое интересное. В 300-й серии будет по 288 гигабайт памяти (против 141 у 200 и 80/94 у 100).
Улучшения памяти являются ключевыми для обучения и применения «рассуждающих» моделей вроде o1/o3 из-за длины генерируемого ответа, раздувающего кол-во промежуточной информации, которую нужно хранить (KVCache), что критически сказывается на задержке в ответе и количество одновременных запросов.
Вот как выглядит разница между уже существующими 100-й и 200-й версиями. На бумаге у них полностью одинаковые FLOPs (во всех форматах вычислений, от INT8 до FP64, смотрите тут и тут), отличается объем памяти (и её пропускная способность, так как больше чипов — можно одновременно грузить каждый из них в параллель).
Взяли LLAMA-405B, запустили в FP8, подали на вход 1 тысячу токенов и генерировали 19 тысяч — то есть примерно как у o1/o3, когда рассуждения в ответе куда больше исходной задачи.
По оси OX отмечено количество одновременных запросов (грубо говоря сколько пользователей ждут ответа), по OY — сколько токенов в секунду будет у каждого. Больше пользователей = меньше скорость у каждого.
Видно, что карта с большим количеством памяти существенно расширяет возможности предоставляемых услуг: либо можно выдавать ответы куда быстрее, либо одновременно обслуживать больше клиентов. Для последнего — если мы целимся в чуть более чем 50 токенов в секунду на пользователя (это чуть меньше, чем выдают OpenAI), то сервер с B100 может держать 20-25 пользователей, а B200 — больше 65. И это только из-за увеличения памяти.
«ну а чо такого, ясно карта дороже = лучше, и?» — могли подумать вы. А дело в том, что по подсчётам Semianalysis выходит, что B200 примерно в 3 раза выгоднее по себестоимости токена. А карта-то стоит сильно меньше, чем x3 от B100 (ведь чипы у них фактически одинаковые). Поэтому В Ы Г О Д А.
С переездом компаний на B300 стоит ожидать дальнейших а) падения цен б) ускорения ответов в) удлинения цепочек рассуждений.
BY Сиолошная
Share with your friend now:
group-telegram.com/seeallochnaya/2171