Telegram Group & Telegram Channel
Как ускоряют инференс LLM в character.ai. LLM компании обрабатывают 20 тысяч запросов в секунду, так что задача непростая.

Уменьшение KV Cache:
85% слоёв используют только Local Attention, вместо обычного (первая картинка). Это сильно уменьшает размер кэша, особенно для длинных контекстов. Этот же подход используется в Gemini и Gemma 2. А ещё он напоминает Jamba, там тоже "тяжёлый" attention использовали только для некоторых слоёв.
Используют Multi-Query Attention, вместо доминирующего сейчас Group Query Attention, это позволяет уменьшить размер кэша в восемь раз по сравнению с индустриальным стандартом, но с сильными просадками в качестве.
KV Cache шерится между слоями (статья).

Это уменьшает размер KV Cache более чем в 20 раз, что делает возможным хранение кэша:
На одну машину влезает KV Cache тысяч пользователей
Сегментирование KV Cache для каждого сообщения (вторая картинка) - позволяет продолжить разговор с любого момента без перегенерации кэша
Чтобы сохранение кэша работало используются Sticky Sessions - пользователей пытаются кидать на серверы где уже сохранён их KV Cache. Выходит с эффективностью более чем 95%.

И инференс и тренировка происходят в int8 😮, об этом они обещают написать ещё один пост.

Из-за этих оптимизаций стоимость инференса для стартапа упала за полтора года в 33 раза, в 13 раз дешевле чем у ближайших конкурентов.

Character ai - это стартап предоставляющий услуги "ИИ вайфу", подробнее я писал вчера тут и тут. Основан Noam Shazeer, одним из авторов трансформера. Он приложил руку ко многим инновациям в LLM за последние 7 лет (MoE, MQA, T5). Кстати из-за него трансформеры чуть не назвали CargoNet, благо не прижилось.

В общем, это не просто очередная обертка над API от OpenaI, тут челы реально разрабатывают свои модели и ускоряют их сами, что заслуживает большого репекта.

Блогпост

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/ai_newz/2961
Create:
Last Update:

Как ускоряют инференс LLM в character.ai. LLM компании обрабатывают 20 тысяч запросов в секунду, так что задача непростая.

Уменьшение KV Cache:
85% слоёв используют только Local Attention, вместо обычного (первая картинка). Это сильно уменьшает размер кэша, особенно для длинных контекстов. Этот же подход используется в Gemini и Gemma 2. А ещё он напоминает Jamba, там тоже "тяжёлый" attention использовали только для некоторых слоёв.
Используют Multi-Query Attention, вместо доминирующего сейчас Group Query Attention, это позволяет уменьшить размер кэша в восемь раз по сравнению с индустриальным стандартом, но с сильными просадками в качестве.
KV Cache шерится между слоями (статья).

Это уменьшает размер KV Cache более чем в 20 раз, что делает возможным хранение кэша:
На одну машину влезает KV Cache тысяч пользователей
Сегментирование KV Cache для каждого сообщения (вторая картинка) - позволяет продолжить разговор с любого момента без перегенерации кэша
Чтобы сохранение кэша работало используются Sticky Sessions - пользователей пытаются кидать на серверы где уже сохранён их KV Cache. Выходит с эффективностью более чем 95%.

И инференс и тренировка происходят в int8 😮, об этом они обещают написать ещё один пост.

Из-за этих оптимизаций стоимость инференса для стартапа упала за полтора года в 33 раза, в 13 раз дешевле чем у ближайших конкурентов.

Character ai - это стартап предоставляющий услуги "ИИ вайфу", подробнее я писал вчера тут и тут. Основан Noam Shazeer, одним из авторов трансформера. Он приложил руку ко многим инновациям в LLM за последние 7 лет (MoE, MQA, T5). Кстати из-за него трансформеры чуть не назвали CargoNet, благо не прижилось.

В общем, это не просто очередная обертка над API от OpenaI, тут челы реально разрабатывают свои модели и ускоряют их сами, что заслуживает большого репекта.

Блогпост

@ai_newz

BY эйай ньюз





Share with your friend now:
group-telegram.com/ai_newz/2961

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In a message on his Telegram channel recently recounting the episode, Durov wrote: "I lost my company and my home, but would do it again – without hesitation." "He has to start being more proactive and to find a real solution to this situation, not stay in standby without interfering. It's a very irresponsible position from the owner of Telegram," she said. WhatsApp, a rival messaging platform, introduced some measures to counter disinformation when Covid-19 was first sweeping the world. Since its launch in 2013, Telegram has grown from a simple messaging app to a broadcast network. Its user base isn’t as vast as WhatsApp’s, and its broadcast platform is a fraction the size of Twitter, but it’s nonetheless showing its use. While Telegram has been embroiled in controversy for much of its life, it has become a vital source of communication during the invasion of Ukraine. But, if all of this is new to you, let us explain, dear friends, what on Earth a Telegram is meant to be, and why you should, or should not, need to care. Russian President Vladimir Putin launched Russia's invasion of Ukraine in the early-morning hours of February 24, targeting several key cities with military strikes.
from us


Telegram эйай ньюз
FROM American