Telegram Group & Telegram Channel
Llama 3.1 405B ускорили почти до тысячи токенов в секунду

Cerebras наконец-то нашли достаточное количество своих CS-3, чтобы запустить Llama 405B, применили к ней Speculative Decoding, который использовали для ускорения 70B до 2к токенов, и обскакали SambaNova почти в 6 раз. Стоить это будет $6 input/$12 output за миллион токенов и уже доступно в бете. Всем пользователям дадут доступ в первом квартале 2025.

Столько ждать нужно из-за крайне плохой доступности железа - для того чтобы запустить Llama 405B, нужно 20-30 CS-3. Для сравнения, в Condor Galaxy, суперкомпьютере на чипах Cerebras, всего 64 CS-3. А стоит он больше ста миллионов долларов. Надеюсь, что если им удастся перейти на массовое производство, то стоимость их систем значительно упадёт. Иначе прибыльность такого API сомнительна.

Проблемы с доступностью не только у Cerebras — есть они и у Groq, которые больше трёх месяцев обещают API 405B, но, видимо, чипов просто не хватает (для запуска 405B нужно около четырёх тысяч чипов Groq). А пока что они почти догнали Cerebras на инференсе Llama 70B — 1669 токенов в секунду, при этом обещая, что следующее поколение чипов будет сильно быстрее.

К сожалению, доступ всем юзерам через чат на этот раз не дали. Да и длина контекста пока что всего 8к, но на релизе обещают сделать доступным и 128к. Скорость при таком контексте, правда, проседает, но всё равно больше полутысячи токенов в секунду. Надеюсь, к полноценному релизу R1 они откопают ещё один суперкомпьютер, и будет у нас модель, думающая секунды вместо минут.

@ai_newz



group-telegram.com/ai_newz/3448
Create:
Last Update:

Llama 3.1 405B ускорили почти до тысячи токенов в секунду

Cerebras наконец-то нашли достаточное количество своих CS-3, чтобы запустить Llama 405B, применили к ней Speculative Decoding, который использовали для ускорения 70B до 2к токенов, и обскакали SambaNova почти в 6 раз. Стоить это будет $6 input/$12 output за миллион токенов и уже доступно в бете. Всем пользователям дадут доступ в первом квартале 2025.

Столько ждать нужно из-за крайне плохой доступности железа - для того чтобы запустить Llama 405B, нужно 20-30 CS-3. Для сравнения, в Condor Galaxy, суперкомпьютере на чипах Cerebras, всего 64 CS-3. А стоит он больше ста миллионов долларов. Надеюсь, что если им удастся перейти на массовое производство, то стоимость их систем значительно упадёт. Иначе прибыльность такого API сомнительна.

Проблемы с доступностью не только у Cerebras — есть они и у Groq, которые больше трёх месяцев обещают API 405B, но, видимо, чипов просто не хватает (для запуска 405B нужно около четырёх тысяч чипов Groq). А пока что они почти догнали Cerebras на инференсе Llama 70B — 1669 токенов в секунду, при этом обещая, что следующее поколение чипов будет сильно быстрее.

К сожалению, доступ всем юзерам через чат на этот раз не дали. Да и длина контекста пока что всего 8к, но на релизе обещают сделать доступным и 128к. Скорость при таком контексте, правда, проседает, но всё равно больше полутысячи токенов в секунду. Надеюсь, к полноценному релизу R1 они откопают ещё один суперкомпьютер, и будет у нас модель, думающая секунды вместо минут.

@ai_newz

BY эйай ньюз





Share with your friend now:
group-telegram.com/ai_newz/3448

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Continuing its crackdown against entities allegedly involved in a front-running scam using messaging app Telegram, Sebi on Thursday carried out search and seizure operations at the premises of eight entities in multiple locations across the country. The original Telegram channel has expanded into a web of accounts for different locations, including specific pages made for individual Russian cities. There's also an English-language website, which states it is owned by the people who run the Telegram channels. He floated the idea of restricting the use of Telegram in Ukraine and Russia, a suggestion that was met with fierce opposition from users. Shortly after, Durov backed off the idea. "Like the bombing of the maternity ward in Mariupol," he said, "Even before it hits the news, you see the videos on the Telegram channels." Recently, Durav wrote on his Telegram channel that users' right to privacy, in light of the war in Ukraine, is "sacred, now more than ever."
from br


Telegram эйай ньюз
FROM American