Telegram Group & Telegram Channel
В свежей рассылке от Semianalysis пишут, что Nvidia всего через 6 месяцев после релиза своих GPU B200 и GB200 уже готовится к выпуску 300-й серии. Хоть это может звучать минорно, на самом деле на ряд задач и экономику моделей это повлияет существенно. Почему? Давайте смотреть.

Сама карта станет помощнее (ожидается, что на 50% больше FLOPs, чем у H200) за счёт нового дизайна/увеличения потребления энергии/etc, но это не самое интересное. В 300-й серии будет по 288 гигабайт памяти (против 141 у 200 и 80/94 у 100).

Улучшения памяти являются ключевыми для обучения и применения «рассуждающих» моделей вроде o1/o3 из-за длины генерируемого ответа, раздувающего кол-во промежуточной информации, которую нужно хранить (KVCache), что критически сказывается на задержке в ответе и количество одновременных запросов.

Вот как выглядит разница между уже существующими 100-й и 200-й версиями. На бумаге у них полностью одинаковые FLOPs (во всех форматах вычислений, от INT8 до FP64, смотрите тут и тут), отличается объем памяти (и её пропускная способность, так как больше чипов — можно одновременно грузить каждый из них в параллель).

Взяли LLAMA-405B, запустили в FP8, подали на вход 1 тысячу токенов и генерировали 19 тысяч — то есть примерно как у o1/o3, когда рассуждения в ответе куда больше исходной задачи.

По оси OX отмечено количество одновременных запросов (грубо говоря сколько пользователей ждут ответа), по OY — сколько токенов в секунду будет у каждого. Больше пользователей = меньше скорость у каждого.

Видно, что карта с большим количеством памяти существенно расширяет возможности предоставляемых услуг: либо можно выдавать ответы куда быстрее, либо одновременно обслуживать больше клиентов. Для последнего — если мы целимся в чуть более чем 50 токенов в секунду на пользователя (это чуть меньше, чем выдают OpenAI), то сервер с B100 может держать 20-25 пользователей, а B200 — больше 65. И это только из-за увеличения памяти.

«ну а чо такого, ясно карта дороже = лучше, и?» — могли подумать вы. А дело в том, что по подсчётам Semianalysis выходит, что B200 примерно в 3 раза выгоднее по себестоимости токена. А карта-то стоит сильно меньше, чем x3 от B100 (ведь чипы у них фактически одинаковые). Поэтому В Ы Г О Д А.

С переездом компаний на B300 стоит ожидать дальнейших а) падения цен б) ускорения ответов в) удлинения цепочек рассуждений.



group-telegram.com/seeallochnaya/2171
Create:
Last Update:

В свежей рассылке от Semianalysis пишут, что Nvidia всего через 6 месяцев после релиза своих GPU B200 и GB200 уже готовится к выпуску 300-й серии. Хоть это может звучать минорно, на самом деле на ряд задач и экономику моделей это повлияет существенно. Почему? Давайте смотреть.

Сама карта станет помощнее (ожидается, что на 50% больше FLOPs, чем у H200) за счёт нового дизайна/увеличения потребления энергии/etc, но это не самое интересное. В 300-й серии будет по 288 гигабайт памяти (против 141 у 200 и 80/94 у 100).

Улучшения памяти являются ключевыми для обучения и применения «рассуждающих» моделей вроде o1/o3 из-за длины генерируемого ответа, раздувающего кол-во промежуточной информации, которую нужно хранить (KVCache), что критически сказывается на задержке в ответе и количество одновременных запросов.

Вот как выглядит разница между уже существующими 100-й и 200-й версиями. На бумаге у них полностью одинаковые FLOPs (во всех форматах вычислений, от INT8 до FP64, смотрите тут и тут), отличается объем памяти (и её пропускная способность, так как больше чипов — можно одновременно грузить каждый из них в параллель).

Взяли LLAMA-405B, запустили в FP8, подали на вход 1 тысячу токенов и генерировали 19 тысяч — то есть примерно как у o1/o3, когда рассуждения в ответе куда больше исходной задачи.

По оси OX отмечено количество одновременных запросов (грубо говоря сколько пользователей ждут ответа), по OY — сколько токенов в секунду будет у каждого. Больше пользователей = меньше скорость у каждого.

Видно, что карта с большим количеством памяти существенно расширяет возможности предоставляемых услуг: либо можно выдавать ответы куда быстрее, либо одновременно обслуживать больше клиентов. Для последнего — если мы целимся в чуть более чем 50 токенов в секунду на пользователя (это чуть меньше, чем выдают OpenAI), то сервер с B100 может держать 20-25 пользователей, а B200 — больше 65. И это только из-за увеличения памяти.

«ну а чо такого, ясно карта дороже = лучше, и?» — могли подумать вы. А дело в том, что по подсчётам Semianalysis выходит, что B200 примерно в 3 раза выгоднее по себестоимости токена. А карта-то стоит сильно меньше, чем x3 от B100 (ведь чипы у них фактически одинаковые). Поэтому В Ы Г О Д А.

С переездом компаний на B300 стоит ожидать дальнейших а) падения цен б) ускорения ответов в) удлинения цепочек рассуждений.

BY Сиолошная




Share with your friend now:
group-telegram.com/seeallochnaya/2171

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Either way, Durov says that he withdrew his resignation but that he was ousted from his company anyway. Subsequently, control of the company was reportedly handed to oligarchs Alisher Usmanov and Igor Sechin, both allegedly close associates of Russian leader Vladimir Putin. But Kliuchnikov, the Ukranian now in France, said he will use Signal or WhatsApp for sensitive conversations, but questions around privacy on Telegram do not give him pause when it comes to sharing information about the war. Two days after Russia invaded Ukraine, an account on the Telegram messaging platform posing as President Volodymyr Zelenskiy urged his armed forces to surrender. Apparently upbeat developments in Russia's discussions with Ukraine helped at least temporarily send investors back into risk assets. Russian President Vladimir Putin said during a meeting with his Belarusian counterpart Alexander Lukashenko that there were "certain positive developments" occurring in the talks with Ukraine, according to a transcript of their meeting. Putin added that discussions were happening "almost on a daily basis." The S&P 500 fell 1.3% to 4,204.36, and the Dow Jones Industrial Average was down 0.7% to 32,943.33. The Dow posted a fifth straight weekly loss — its longest losing streak since 2019. The Nasdaq Composite tumbled 2.2% to 12,843.81. Though all three indexes opened in the green, stocks took a turn after a new report showed U.S. consumer sentiment deteriorated more than expected in early March as consumers' inflation expectations soared to the highest since 1981.
from es


Telegram Сиолошная
FROM American