Telegram Group & Telegram Channel
Как ускоряют инференс LLM в character.ai. LLM компании обрабатывают 20 тысяч запросов в секунду, так что задача непростая.

Уменьшение KV Cache:
85% слоёв используют только Local Attention, вместо обычного (первая картинка). Это сильно уменьшает размер кэша, особенно для длинных контекстов. Этот же подход используется в Gemini и Gemma 2. А ещё он напоминает Jamba, там тоже "тяжёлый" attention использовали только для некоторых слоёв.
Используют Multi-Query Attention, вместо доминирующего сейчас Group Query Attention, это позволяет уменьшить размер кэша в восемь раз по сравнению с индустриальным стандартом, но с сильными просадками в качестве.
KV Cache шерится между слоями (статья).

Это уменьшает размер KV Cache более чем в 20 раз, что делает возможным хранение кэша:
На одну машину влезает KV Cache тысяч пользователей
Сегментирование KV Cache для каждого сообщения (вторая картинка) - позволяет продолжить разговор с любого момента без перегенерации кэша
Чтобы сохранение кэша работало используются Sticky Sessions - пользователей пытаются кидать на серверы где уже сохранён их KV Cache. Выходит с эффективностью более чем 95%.

И инференс и тренировка происходят в int8 😮, об этом они обещают написать ещё один пост.

Из-за этих оптимизаций стоимость инференса для стартапа упала за полтора года в 33 раза, в 13 раз дешевле чем у ближайших конкурентов.

Character ai - это стартап предоставляющий услуги "ИИ вайфу", подробнее я писал вчера тут и тут. Основан Noam Shazeer, одним из авторов трансформера. Он приложил руку ко многим инновациям в LLM за последние 7 лет (MoE, MQA, T5). Кстати из-за него трансформеры чуть не назвали CargoNet, благо не прижилось.

В общем, это не просто очередная обертка над API от OpenaI, тут челы реально разрабатывают свои модели и ускоряют их сами, что заслуживает большого репекта.

Блогпост

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/ai_newz/2961
Create:
Last Update:

Как ускоряют инференс LLM в character.ai. LLM компании обрабатывают 20 тысяч запросов в секунду, так что задача непростая.

Уменьшение KV Cache:
85% слоёв используют только Local Attention, вместо обычного (первая картинка). Это сильно уменьшает размер кэша, особенно для длинных контекстов. Этот же подход используется в Gemini и Gemma 2. А ещё он напоминает Jamba, там тоже "тяжёлый" attention использовали только для некоторых слоёв.
Используют Multi-Query Attention, вместо доминирующего сейчас Group Query Attention, это позволяет уменьшить размер кэша в восемь раз по сравнению с индустриальным стандартом, но с сильными просадками в качестве.
KV Cache шерится между слоями (статья).

Это уменьшает размер KV Cache более чем в 20 раз, что делает возможным хранение кэша:
На одну машину влезает KV Cache тысяч пользователей
Сегментирование KV Cache для каждого сообщения (вторая картинка) - позволяет продолжить разговор с любого момента без перегенерации кэша
Чтобы сохранение кэша работало используются Sticky Sessions - пользователей пытаются кидать на серверы где уже сохранён их KV Cache. Выходит с эффективностью более чем 95%.

И инференс и тренировка происходят в int8 😮, об этом они обещают написать ещё один пост.

Из-за этих оптимизаций стоимость инференса для стартапа упала за полтора года в 33 раза, в 13 раз дешевле чем у ближайших конкурентов.

Character ai - это стартап предоставляющий услуги "ИИ вайфу", подробнее я писал вчера тут и тут. Основан Noam Shazeer, одним из авторов трансформера. Он приложил руку ко многим инновациям в LLM за последние 7 лет (MoE, MQA, T5). Кстати из-за него трансформеры чуть не назвали CargoNet, благо не прижилось.

В общем, это не просто очередная обертка над API от OpenaI, тут челы реально разрабатывают свои модели и ускоряют их сами, что заслуживает большого репекта.

Блогпост

@ai_newz

BY эйай ньюз





Share with your friend now:
group-telegram.com/ai_newz/2961

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

But because group chats and the channel features are not end-to-end encrypted, Galperin said user privacy is potentially under threat. False news often spreads via public groups, or chats, with potentially fatal effects. In a message on his Telegram channel recently recounting the episode, Durov wrote: "I lost my company and my home, but would do it again – without hesitation." Ukrainian President Volodymyr Zelensky said in a video message on Tuesday that Ukrainian forces "destroy the invaders wherever we can." Soloviev also promoted the channel in a post he shared on his own Telegram, which has 580,000 followers. The post recommended his viewers subscribe to "War on Fakes" in a time of fake news.
from de


Telegram эйай ньюз
FROM American