Telegram Group & Telegram Channel
Скорость Llama 3.1 70B выросла в 4 раза

Cerebras резким рывком обогнали всех конкурентов и довели скорость инференса Llama 70B до безумных 2200 токенов в секунду по замерам Artificial Analysis (всего пару месяцев назад они хвастались 450 в секунду). Лично при моём запросе скорость была в 2600 токенов в секунду, а в твиттере люди хвастаются вообще более чем 4к токенов в секунду. Скорее всего, вместе с дополнительными оптимизациями они используют спекулятивный декодинг, так что на простых промптах скорости бешеные. На промптах посложнее скорость может проседать, насколько - непонятно.

Но есть у них и значительная проблема - длина контекста, она тут всего 8к. Конкуренты в лице Groq и SambaNova поддерживают 128к контекста и 64к контекста соответственно. С грядущей, после релиза o1, модой на inference time scaling, важность скоростных провайдеров сильно вырастет. o1 часто думает больше минуты, что не позволяет использовать её во многих контекстах, так что спрос на сокращение времени инференса будет огромным. Но если провайдер просто не может обеспечить необходимые для размышлений десятки тысяч токенов контекста - поучаствовать в этой золотой лихорадке не удастся.

Попробовать можно тут.

@ai_newz



group-telegram.com/ai_newz/3367
Create:
Last Update:

Скорость Llama 3.1 70B выросла в 4 раза

Cerebras резким рывком обогнали всех конкурентов и довели скорость инференса Llama 70B до безумных 2200 токенов в секунду по замерам Artificial Analysis (всего пару месяцев назад они хвастались 450 в секунду). Лично при моём запросе скорость была в 2600 токенов в секунду, а в твиттере люди хвастаются вообще более чем 4к токенов в секунду. Скорее всего, вместе с дополнительными оптимизациями они используют спекулятивный декодинг, так что на простых промптах скорости бешеные. На промптах посложнее скорость может проседать, насколько - непонятно.

Но есть у них и значительная проблема - длина контекста, она тут всего 8к. Конкуренты в лице Groq и SambaNova поддерживают 128к контекста и 64к контекста соответственно. С грядущей, после релиза o1, модой на inference time scaling, важность скоростных провайдеров сильно вырастет. o1 часто думает больше минуты, что не позволяет использовать её во многих контекстах, так что спрос на сокращение времени инференса будет огромным. Но если провайдер просто не может обеспечить необходимые для размышлений десятки тысяч токенов контекста - поучаствовать в этой золотой лихорадке не удастся.

Попробовать можно тут.

@ai_newz

BY эйай ньюз




Share with your friend now:
group-telegram.com/ai_newz/3367

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

During the operations, Sebi officials seized various records and documents, including 34 mobile phones, six laptops, four desktops, four tablets, two hard drive disks and one pen drive from the custody of these persons. As such, the SC would like to remind investors to always exercise caution when evaluating investment opportunities, especially those promising unrealistically high returns with little or no risk. Investors should also never deposit money into someone’s personal bank account if instructed. "Your messages about the movement of the enemy through the official chatbot … bring new trophies every day," the government agency tweeted. To that end, when files are actively downloading, a new icon now appears in the Search bar that users can tap to view and manage downloads, pause and resume all downloads or just individual items, and select one to increase its priority or view it in a chat. Such instructions could actually endanger people — citizens receive air strike warnings via smartphone alerts.
from ca


Telegram эйай ньюз
FROM American