Notice: file_put_contents(): Write of 11716 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50
эйай ньюз | Telegram Webview: ai_newz/3448 -
Telegram Group & Telegram Channel
Llama 3.1 405B ускорили почти до тысячи токенов в секунду

Cerebras наконец-то нашли достаточное количество своих CS-3, чтобы запустить Llama 405B, применили к ней Speculative Decoding, который использовали для ускорения 70B до 2к токенов, и обскакали SambaNova почти в 6 раз. Стоить это будет $6 input/$12 output за миллион токенов и уже доступно в бете. Всем пользователям дадут доступ в первом квартале 2025.

Столько ждать нужно из-за крайне плохой доступности железа - для того чтобы запустить Llama 405B, нужно 20-30 CS-3. Для сравнения, в Condor Galaxy, суперкомпьютере на чипах Cerebras, всего 64 CS-3. А стоит он больше ста миллионов долларов. Надеюсь, что если им удастся перейти на массовое производство, то стоимость их систем значительно упадёт. Иначе прибыльность такого API сомнительна.

Проблемы с доступностью не только у Cerebras — есть они и у Groq, которые больше трёх месяцев обещают API 405B, но, видимо, чипов просто не хватает (для запуска 405B нужно около четырёх тысяч чипов Groq). А пока что они почти догнали Cerebras на инференсе Llama 70B — 1669 токенов в секунду, при этом обещая, что следующее поколение чипов будет сильно быстрее.

К сожалению, доступ всем юзерам через чат на этот раз не дали. Да и длина контекста пока что всего 8к, но на релизе обещают сделать доступным и 128к. Скорость при таком контексте, правда, проседает, но всё равно больше полутысячи токенов в секунду. Надеюсь, к полноценному релизу R1 они откопают ещё один суперкомпьютер, и будет у нас модель, думающая секунды вместо минут.

@ai_newz



group-telegram.com/ai_newz/3448
Create:
Last Update:

Llama 3.1 405B ускорили почти до тысячи токенов в секунду

Cerebras наконец-то нашли достаточное количество своих CS-3, чтобы запустить Llama 405B, применили к ней Speculative Decoding, который использовали для ускорения 70B до 2к токенов, и обскакали SambaNova почти в 6 раз. Стоить это будет $6 input/$12 output за миллион токенов и уже доступно в бете. Всем пользователям дадут доступ в первом квартале 2025.

Столько ждать нужно из-за крайне плохой доступности железа - для того чтобы запустить Llama 405B, нужно 20-30 CS-3. Для сравнения, в Condor Galaxy, суперкомпьютере на чипах Cerebras, всего 64 CS-3. А стоит он больше ста миллионов долларов. Надеюсь, что если им удастся перейти на массовое производство, то стоимость их систем значительно упадёт. Иначе прибыльность такого API сомнительна.

Проблемы с доступностью не только у Cerebras — есть они и у Groq, которые больше трёх месяцев обещают API 405B, но, видимо, чипов просто не хватает (для запуска 405B нужно около четырёх тысяч чипов Groq). А пока что они почти догнали Cerebras на инференсе Llama 70B — 1669 токенов в секунду, при этом обещая, что следующее поколение чипов будет сильно быстрее.

К сожалению, доступ всем юзерам через чат на этот раз не дали. Да и длина контекста пока что всего 8к, но на релизе обещают сделать доступным и 128к. Скорость при таком контексте, правда, проседает, но всё равно больше полутысячи токенов в секунду. Надеюсь, к полноценному релизу R1 они откопают ещё один суперкомпьютер, и будет у нас модель, думающая секунды вместо минут.

@ai_newz

BY эйай ньюз





Share with your friend now:
group-telegram.com/ai_newz/3448

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Overall, extreme levels of fear in the market seems to have morphed into something more resembling concern. For example, the Cboe Volatility Index fell from its 2022 peak of 36, which it hit Monday, to around 30 on Friday, a sign of easing tensions. Meanwhile, while the price of WTI crude oil slipped from Sunday’s multiyear high $130 of barrel to $109 a pop. Markets have been expecting heavy restrictions on Russian oil, some of which the U.S. has already imposed, and that would reduce the global supply and bring about even more burdensome inflation. Continuing its crackdown against entities allegedly involved in a front-running scam using messaging app Telegram, Sebi on Thursday carried out search and seizure operations at the premises of eight entities in multiple locations across the country. There was another possible development: Reuters also reported that Ukraine said that Belarus could soon join the invasion of Ukraine. However, the AFP, citing a Pentagon official, said the U.S. hasn’t yet seen evidence that Belarusian troops are in Ukraine. On Feb. 27, however, he admitted from his Russian-language account that "Telegram channels are increasingly becoming a source of unverified information related to Ukrainian events." Apparently upbeat developments in Russia's discussions with Ukraine helped at least temporarily send investors back into risk assets. Russian President Vladimir Putin said during a meeting with his Belarusian counterpart Alexander Lukashenko that there were "certain positive developments" occurring in the talks with Ukraine, according to a transcript of their meeting. Putin added that discussions were happening "almost on a daily basis."
from vn


Telegram эйай ньюз
FROM American