Telegram Group & Telegram Channel
В свежей рассылке от Semianalysis пишут, что Nvidia всего через 6 месяцев после релиза своих GPU B200 и GB200 уже готовится к выпуску 300-й серии. Хоть это может звучать минорно, на самом деле на ряд задач и экономику моделей это повлияет существенно. Почему? Давайте смотреть.

Сама карта станет помощнее (ожидается, что на 50% больше FLOPs, чем у H200) за счёт нового дизайна/увеличения потребления энергии/etc, но это не самое интересное. В 300-й серии будет по 288 гигабайт памяти (против 141 у 200 и 80/94 у 100).

Улучшения памяти являются ключевыми для обучения и применения «рассуждающих» моделей вроде o1/o3 из-за длины генерируемого ответа, раздувающего кол-во промежуточной информации, которую нужно хранить (KVCache), что критически сказывается на задержке в ответе и количество одновременных запросов.

Вот как выглядит разница между уже существующими 100-й и 200-й версиями. На бумаге у них полностью одинаковые FLOPs (во всех форматах вычислений, от INT8 до FP64, смотрите тут и тут), отличается объем памяти (и её пропускная способность, так как больше чипов — можно одновременно грузить каждый из них в параллель).

Взяли LLAMA-405B, запустили в FP8, подали на вход 1 тысячу токенов и генерировали 19 тысяч — то есть примерно как у o1/o3, когда рассуждения в ответе куда больше исходной задачи.

По оси OX отмечено количество одновременных запросов (грубо говоря сколько пользователей ждут ответа), по OY — сколько токенов в секунду будет у каждого. Больше пользователей = меньше скорость у каждого.

Видно, что карта с большим количеством памяти существенно расширяет возможности предоставляемых услуг: либо можно выдавать ответы куда быстрее, либо одновременно обслуживать больше клиентов. Для последнего — если мы целимся в чуть более чем 50 токенов в секунду на пользователя (это чуть меньше, чем выдают OpenAI), то сервер с B100 может держать 20-25 пользователей, а B200 — больше 65. И это только из-за увеличения памяти.

«ну а чо такого, ясно карта дороже = лучше, и?» — могли подумать вы. А дело в том, что по подсчётам Semianalysis выходит, что B200 примерно в 3 раза выгоднее по себестоимости токена. А карта-то стоит сильно меньше, чем x3 от B100 (ведь чипы у них фактически одинаковые). Поэтому В Ы Г О Д А.

С переездом компаний на B300 стоит ожидать дальнейших а) падения цен б) ускорения ответов в) удлинения цепочек рассуждений.



group-telegram.com/seeallochnaya/2171
Create:
Last Update:

В свежей рассылке от Semianalysis пишут, что Nvidia всего через 6 месяцев после релиза своих GPU B200 и GB200 уже готовится к выпуску 300-й серии. Хоть это может звучать минорно, на самом деле на ряд задач и экономику моделей это повлияет существенно. Почему? Давайте смотреть.

Сама карта станет помощнее (ожидается, что на 50% больше FLOPs, чем у H200) за счёт нового дизайна/увеличения потребления энергии/etc, но это не самое интересное. В 300-й серии будет по 288 гигабайт памяти (против 141 у 200 и 80/94 у 100).

Улучшения памяти являются ключевыми для обучения и применения «рассуждающих» моделей вроде o1/o3 из-за длины генерируемого ответа, раздувающего кол-во промежуточной информации, которую нужно хранить (KVCache), что критически сказывается на задержке в ответе и количество одновременных запросов.

Вот как выглядит разница между уже существующими 100-й и 200-й версиями. На бумаге у них полностью одинаковые FLOPs (во всех форматах вычислений, от INT8 до FP64, смотрите тут и тут), отличается объем памяти (и её пропускная способность, так как больше чипов — можно одновременно грузить каждый из них в параллель).

Взяли LLAMA-405B, запустили в FP8, подали на вход 1 тысячу токенов и генерировали 19 тысяч — то есть примерно как у o1/o3, когда рассуждения в ответе куда больше исходной задачи.

По оси OX отмечено количество одновременных запросов (грубо говоря сколько пользователей ждут ответа), по OY — сколько токенов в секунду будет у каждого. Больше пользователей = меньше скорость у каждого.

Видно, что карта с большим количеством памяти существенно расширяет возможности предоставляемых услуг: либо можно выдавать ответы куда быстрее, либо одновременно обслуживать больше клиентов. Для последнего — если мы целимся в чуть более чем 50 токенов в секунду на пользователя (это чуть меньше, чем выдают OpenAI), то сервер с B100 может держать 20-25 пользователей, а B200 — больше 65. И это только из-за увеличения памяти.

«ну а чо такого, ясно карта дороже = лучше, и?» — могли подумать вы. А дело в том, что по подсчётам Semianalysis выходит, что B200 примерно в 3 раза выгоднее по себестоимости токена. А карта-то стоит сильно меньше, чем x3 от B100 (ведь чипы у них фактически одинаковые). Поэтому В Ы Г О Д А.

С переездом компаний на B300 стоит ожидать дальнейших а) падения цен б) ускорения ответов в) удлинения цепочек рассуждений.

BY Сиолошная




Share with your friend now:
group-telegram.com/seeallochnaya/2171

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Sebi said data, emails and other documents are being retrieved from the seized devices and detailed investigation is in progress. Telegram users are able to send files of any type up to 2GB each and access them from any device, with no limit on cloud storage, which has made downloading files more popular on the platform. Meanwhile, a completely redesigned attachment menu appears when sending multiple photos or vides. Users can tap "X selected" (X being the number of items) at the top of the panel to preview how the album will look in the chat when it's sent, as well as rearrange or remove selected media. "Like the bombing of the maternity ward in Mariupol," he said, "Even before it hits the news, you see the videos on the Telegram channels." On February 27th, Durov posted that Channels were becoming a source of unverified information and that the company lacks the ability to check on their veracity. He urged users to be mistrustful of the things shared on Channels, and initially threatened to block the feature in the countries involved for the length of the war, saying that he didn’t want Telegram to be used to aggravate conflict or incite ethnic hatred. He did, however, walk back this plan when it became clear that they had also become a vital communications tool for Ukrainian officials and citizens to help coordinate their resistance and evacuations.
from pl


Telegram Сиолошная
FROM American