Telegram Group & Telegram Channel
Llama 3.1 405B ускорили почти до тысячи токенов в секунду

Cerebras наконец-то нашли достаточное количество своих CS-3, чтобы запустить Llama 405B, применили к ней Speculative Decoding, который использовали для ускорения 70B до 2к токенов, и обскакали SambaNova почти в 6 раз. Стоить это будет $6 input/$12 output за миллион токенов и уже доступно в бете. Всем пользователям дадут доступ в первом квартале 2025.

Столько ждать нужно из-за крайне плохой доступности железа - для того чтобы запустить Llama 405B, нужно 20-30 CS-3. Для сравнения, в Condor Galaxy, суперкомпьютере на чипах Cerebras, всего 64 CS-3. А стоит он больше ста миллионов долларов. Надеюсь, что если им удастся перейти на массовое производство, то стоимость их систем значительно упадёт. Иначе прибыльность такого API сомнительна.

Проблемы с доступностью не только у Cerebras — есть они и у Groq, которые больше трёх месяцев обещают API 405B, но, видимо, чипов просто не хватает (для запуска 405B нужно около четырёх тысяч чипов Groq). А пока что они почти догнали Cerebras на инференсе Llama 70B — 1669 токенов в секунду, при этом обещая, что следующее поколение чипов будет сильно быстрее.

К сожалению, доступ всем юзерам через чат на этот раз не дали. Да и длина контекста пока что всего 8к, но на релизе обещают сделать доступным и 128к. Скорость при таком контексте, правда, проседает, но всё равно больше полутысячи токенов в секунду. Надеюсь, к полноценному релизу R1 они откопают ещё один суперкомпьютер, и будет у нас модель, думающая секунды вместо минут.

@ai_newz



group-telegram.com/ai_newz/3448
Create:
Last Update:

Llama 3.1 405B ускорили почти до тысячи токенов в секунду

Cerebras наконец-то нашли достаточное количество своих CS-3, чтобы запустить Llama 405B, применили к ней Speculative Decoding, который использовали для ускорения 70B до 2к токенов, и обскакали SambaNova почти в 6 раз. Стоить это будет $6 input/$12 output за миллион токенов и уже доступно в бете. Всем пользователям дадут доступ в первом квартале 2025.

Столько ждать нужно из-за крайне плохой доступности железа - для того чтобы запустить Llama 405B, нужно 20-30 CS-3. Для сравнения, в Condor Galaxy, суперкомпьютере на чипах Cerebras, всего 64 CS-3. А стоит он больше ста миллионов долларов. Надеюсь, что если им удастся перейти на массовое производство, то стоимость их систем значительно упадёт. Иначе прибыльность такого API сомнительна.

Проблемы с доступностью не только у Cerebras — есть они и у Groq, которые больше трёх месяцев обещают API 405B, но, видимо, чипов просто не хватает (для запуска 405B нужно около четырёх тысяч чипов Groq). А пока что они почти догнали Cerebras на инференсе Llama 70B — 1669 токенов в секунду, при этом обещая, что следующее поколение чипов будет сильно быстрее.

К сожалению, доступ всем юзерам через чат на этот раз не дали. Да и длина контекста пока что всего 8к, но на релизе обещают сделать доступным и 128к. Скорость при таком контексте, правда, проседает, но всё равно больше полутысячи токенов в секунду. Надеюсь, к полноценному релизу R1 они откопают ещё один суперкомпьютер, и будет у нас модель, думающая секунды вместо минут.

@ai_newz

BY эйай ньюз





Share with your friend now:
group-telegram.com/ai_newz/3448

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Russians and Ukrainians are both prolific users of Telegram. They rely on the app for channels that act as newsfeeds, group chats (both public and private), and one-to-one communication. Since the Russian invasion of Ukraine, Telegram has remained an important lifeline for both Russians and Ukrainians, as a way of staying aware of the latest news and keeping in touch with loved ones. I want a secure messaging app, should I use Telegram? Andrey, a Russian entrepreneur living in Brazil who, fearing retaliation, asked that NPR not use his last name, said Telegram has become one of the few places Russians can access independent news about the war. The fake Zelenskiy account reached 20,000 followers on Telegram before it was shut down, a remedial action that experts say is all too rare. But the Ukraine Crisis Media Center's Tsekhanovska points out that communications are often down in zones most affected by the war, making this sort of cross-referencing a luxury many cannot afford.
from us


Telegram эйай ньюз
FROM American