Telegram Group & Telegram Channel
Как ускоряют инференс LLM в character.ai. LLM компании обрабатывают 20 тысяч запросов в секунду, так что задача непростая.

Уменьшение KV Cache:
85% слоёв используют только Local Attention, вместо обычного (первая картинка). Это сильно уменьшает размер кэша, особенно для длинных контекстов. Этот же подход используется в Gemini и Gemma 2. А ещё он напоминает Jamba, там тоже "тяжёлый" attention использовали только для некоторых слоёв.
Используют Multi-Query Attention, вместо доминирующего сейчас Group Query Attention, это позволяет уменьшить размер кэша в восемь раз по сравнению с индустриальным стандартом, но с сильными просадками в качестве.
KV Cache шерится между слоями (статья).

Это уменьшает размер KV Cache более чем в 20 раз, что делает возможным хранение кэша:
На одну машину влезает KV Cache тысяч пользователей
Сегментирование KV Cache для каждого сообщения (вторая картинка) - позволяет продолжить разговор с любого момента без перегенерации кэша
Чтобы сохранение кэша работало используются Sticky Sessions - пользователей пытаются кидать на серверы где уже сохранён их KV Cache. Выходит с эффективностью более чем 95%.

И инференс и тренировка происходят в int8 😮, об этом они обещают написать ещё один пост.

Из-за этих оптимизаций стоимость инференса для стартапа упала за полтора года в 33 раза, в 13 раз дешевле чем у ближайших конкурентов.

Character ai - это стартап предоставляющий услуги "ИИ вайфу", подробнее я писал вчера тут и тут. Основан Noam Shazeer, одним из авторов трансформера. Он приложил руку ко многим инновациям в LLM за последние 7 лет (MoE, MQA, T5). Кстати из-за него трансформеры чуть не назвали CargoNet, благо не прижилось.

В общем, это не просто очередная обертка над API от OpenaI, тут челы реально разрабатывают свои модели и ускоряют их сами, что заслуживает большого репекта.

Блогпост

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/ai_newz/2961
Create:
Last Update:

Как ускоряют инференс LLM в character.ai. LLM компании обрабатывают 20 тысяч запросов в секунду, так что задача непростая.

Уменьшение KV Cache:
85% слоёв используют только Local Attention, вместо обычного (первая картинка). Это сильно уменьшает размер кэша, особенно для длинных контекстов. Этот же подход используется в Gemini и Gemma 2. А ещё он напоминает Jamba, там тоже "тяжёлый" attention использовали только для некоторых слоёв.
Используют Multi-Query Attention, вместо доминирующего сейчас Group Query Attention, это позволяет уменьшить размер кэша в восемь раз по сравнению с индустриальным стандартом, но с сильными просадками в качестве.
KV Cache шерится между слоями (статья).

Это уменьшает размер KV Cache более чем в 20 раз, что делает возможным хранение кэша:
На одну машину влезает KV Cache тысяч пользователей
Сегментирование KV Cache для каждого сообщения (вторая картинка) - позволяет продолжить разговор с любого момента без перегенерации кэша
Чтобы сохранение кэша работало используются Sticky Sessions - пользователей пытаются кидать на серверы где уже сохранён их KV Cache. Выходит с эффективностью более чем 95%.

И инференс и тренировка происходят в int8 😮, об этом они обещают написать ещё один пост.

Из-за этих оптимизаций стоимость инференса для стартапа упала за полтора года в 33 раза, в 13 раз дешевле чем у ближайших конкурентов.

Character ai - это стартап предоставляющий услуги "ИИ вайфу", подробнее я писал вчера тут и тут. Основан Noam Shazeer, одним из авторов трансформера. Он приложил руку ко многим инновациям в LLM за последние 7 лет (MoE, MQA, T5). Кстати из-за него трансформеры чуть не назвали CargoNet, благо не прижилось.

В общем, это не просто очередная обертка над API от OpenaI, тут челы реально разрабатывают свои модели и ускоряют их сами, что заслуживает большого репекта.

Блогпост

@ai_newz

BY эйай ньюз





Share with your friend now:
group-telegram.com/ai_newz/2961

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The Dow Jones Industrial Average fell 230 points, or 0.7%. Meanwhile, the S&P 500 and the Nasdaq Composite dropped 1.3% and 2.2%, respectively. All three indexes began the day with gains before selling off. The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips. Ukrainian forces have since put up a strong resistance to the Russian troops amid the war that has left hundreds of Ukrainian civilians, including children, dead, according to the United Nations. Ukrainian and international officials have accused Russia of targeting civilian populations with shelling and bombardments. That hurt tech stocks. For the past few weeks, the 10-year yield has traded between 1.72% and 2%, as traders moved into the bond for safety when Russia headlines were ugly—and out of it when headlines improved. Now, the yield is touching its pandemic-era high. If the yield breaks above that level, that could signal that it’s on a sustainable path higher. Higher long-dated bond yields make future profits less valuable—and many tech companies are valued on the basis of profits forecast for many years in the future. Also in the latest update is the ability for users to create a unique @username from the Settings page, providing others with an easy way to contact them via Search or their t.me/username link without sharing their phone number.
from tr


Telegram эйай ньюз
FROM American