Notice: file_put_contents(): Write of 5868 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 4096 of 9964 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
эйай ньюз | Telegram Webview: ai_newz/3203 -
Telegram Group & Telegram Channel
эйай ньюз
Сверхзвуковые LLM Llama 3 70B запустили на скорости в 450 токенов в секунду. А 8B - на бешенных 1800 токенов в секунду. Это всё без квантизации, да и цена не кусается - API стоит 10 центов за лям токенов для 8B и 60 для 70B. Предыдущий рекорд по скорости…
Гонка инференса продолжается - Groq вырывается вперёд!

Ускоренный инференс Llama 3.1 70B выдаёт более полутысячи токенов в секунду и скоро будет доступен всем пользователям. Правда, похоже с 8B моделью не получилось обогнать Cerebras - у них вся модель в один чип влезает, конкурировать сложно.

Кстати, CS-3 от Cerebras производят на 5нм техпроцессе, а вот чипы Groq произведены по 14нм техпроцессу 14LPP - ему в этом году стукнет 8 лет. Второе поколение чипов будет уже на 4нм и выпустится до конца следующего года.

Важный момент, который многие упускают - на картинке указана пропускная способность на одного пользователя, не общая пропускная способность системы. Одна H200 может выдать с Llama 2 70B более 4к токенов в секунду, но только при больших батчах, на одного пользователя там скорость сильно меньше сотни токенов в секунду.

@ai_newz



group-telegram.com/ai_newz/3203
Create:
Last Update:

Гонка инференса продолжается - Groq вырывается вперёд!

Ускоренный инференс Llama 3.1 70B выдаёт более полутысячи токенов в секунду и скоро будет доступен всем пользователям. Правда, похоже с 8B моделью не получилось обогнать Cerebras - у них вся модель в один чип влезает, конкурировать сложно.

Кстати, CS-3 от Cerebras производят на 5нм техпроцессе, а вот чипы Groq произведены по 14нм техпроцессу 14LPP - ему в этом году стукнет 8 лет. Второе поколение чипов будет уже на 4нм и выпустится до конца следующего года.

Важный момент, который многие упускают - на картинке указана пропускная способность на одного пользователя, не общая пропускная способность системы. Одна H200 может выдать с Llama 2 70B более 4к токенов в секунду, но только при больших батчах, на одного пользователя там скорость сильно меньше сотни токенов в секунду.

@ai_newz

BY эйай ньюз





Share with your friend now:
group-telegram.com/ai_newz/3203

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Some privacy experts say Telegram is not secure enough Groups are also not fully encrypted, end-to-end. This includes private groups. Private groups cannot be seen by other Telegram users, but Telegram itself can see the groups and all of the communications that you have in them. All of the same risks and warnings about channels can be applied to groups. READ MORE In the United States, Telegram's lower public profile has helped it mostly avoid high level scrutiny from Congress, but it has not gone unnoticed. On February 27th, Durov posted that Channels were becoming a source of unverified information and that the company lacks the ability to check on their veracity. He urged users to be mistrustful of the things shared on Channels, and initially threatened to block the feature in the countries involved for the length of the war, saying that he didn’t want Telegram to be used to aggravate conflict or incite ethnic hatred. He did, however, walk back this plan when it became clear that they had also become a vital communications tool for Ukrainian officials and citizens to help coordinate their resistance and evacuations.
from it


Telegram эйай ньюз
FROM American