Telegram Group & Telegram Channel
Llama 3.1 405B ускорили почти до тысячи токенов в секунду

Cerebras наконец-то нашли достаточное количество своих CS-3, чтобы запустить Llama 405B, применили к ней Speculative Decoding, который использовали для ускорения 70B до 2к токенов, и обскакали SambaNova почти в 6 раз. Стоить это будет $6 input/$12 output за миллион токенов и уже доступно в бете. Всем пользователям дадут доступ в первом квартале 2025.

Столько ждать нужно из-за крайне плохой доступности железа - для того чтобы запустить Llama 405B, нужно 20-30 CS-3. Для сравнения, в Condor Galaxy, суперкомпьютере на чипах Cerebras, всего 64 CS-3. А стоит он больше ста миллионов долларов. Надеюсь, что если им удастся перейти на массовое производство, то стоимость их систем значительно упадёт. Иначе прибыльность такого API сомнительна.

Проблемы с доступностью не только у Cerebras — есть они и у Groq, которые больше трёх месяцев обещают API 405B, но, видимо, чипов просто не хватает (для запуска 405B нужно около четырёх тысяч чипов Groq). А пока что они почти догнали Cerebras на инференсе Llama 70B — 1669 токенов в секунду, при этом обещая, что следующее поколение чипов будет сильно быстрее.

К сожалению, доступ всем юзерам через чат на этот раз не дали. Да и длина контекста пока что всего 8к, но на релизе обещают сделать доступным и 128к. Скорость при таком контексте, правда, проседает, но всё равно больше полутысячи токенов в секунду. Надеюсь, к полноценному релизу R1 они откопают ещё один суперкомпьютер, и будет у нас модель, думающая секунды вместо минут.

@ai_newz



group-telegram.com/ai_newz/3448
Create:
Last Update:

Llama 3.1 405B ускорили почти до тысячи токенов в секунду

Cerebras наконец-то нашли достаточное количество своих CS-3, чтобы запустить Llama 405B, применили к ней Speculative Decoding, который использовали для ускорения 70B до 2к токенов, и обскакали SambaNova почти в 6 раз. Стоить это будет $6 input/$12 output за миллион токенов и уже доступно в бете. Всем пользователям дадут доступ в первом квартале 2025.

Столько ждать нужно из-за крайне плохой доступности железа - для того чтобы запустить Llama 405B, нужно 20-30 CS-3. Для сравнения, в Condor Galaxy, суперкомпьютере на чипах Cerebras, всего 64 CS-3. А стоит он больше ста миллионов долларов. Надеюсь, что если им удастся перейти на массовое производство, то стоимость их систем значительно упадёт. Иначе прибыльность такого API сомнительна.

Проблемы с доступностью не только у Cerebras — есть они и у Groq, которые больше трёх месяцев обещают API 405B, но, видимо, чипов просто не хватает (для запуска 405B нужно около четырёх тысяч чипов Groq). А пока что они почти догнали Cerebras на инференсе Llama 70B — 1669 токенов в секунду, при этом обещая, что следующее поколение чипов будет сильно быстрее.

К сожалению, доступ всем юзерам через чат на этот раз не дали. Да и длина контекста пока что всего 8к, но на релизе обещают сделать доступным и 128к. Скорость при таком контексте, правда, проседает, но всё равно больше полутысячи токенов в секунду. Надеюсь, к полноценному релизу R1 они откопают ещё один суперкомпьютер, и будет у нас модель, думающая секунды вместо минут.

@ai_newz

BY эйай ньюз





Share with your friend now:
group-telegram.com/ai_newz/3448

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram was founded in 2013 by two Russian brothers, Nikolai and Pavel Durov. But the Ukraine Crisis Media Center's Tsekhanovska points out that communications are often down in zones most affected by the war, making this sort of cross-referencing a luxury many cannot afford. Markets continued to grapple with the economic and corporate earnings implications relating to the Russia-Ukraine conflict. “We have a ton of uncertainty right now,” said Stephanie Link, chief investment strategist and portfolio manager at Hightower Advisors. “We’re dealing with a war, we’re dealing with inflation. We don’t know what it means to earnings.” The regulator said it had received information that messages containing stock tips and other investment advice with respect to selected listed companies are being widely circulated through websites and social media platforms such as Telegram, Facebook, WhatsApp and Instagram. "We're seeing really dramatic moves, and it's all really tied to Ukraine right now, and in a secondary way, in terms of interest rates," Octavio Marenzi, CEO of Opimas, told Yahoo Finance Live on Thursday. "This war in Ukraine is going to give the Fed the ammunition, the cover that it needs, to not raise interest rates too quickly. And I think Jay Powell is a very tepid sort of inflation fighter and he's not going to do as much as he needs to do to get that under control. And this seems like an excuse to kick the can further down the road still and not do too much too soon."
from ru


Telegram эйай ньюз
FROM American