Telegram Group & Telegram Channel
Как ускоряют инференс LLM в character.ai. LLM компании обрабатывают 20 тысяч запросов в секунду, так что задача непростая.

Уменьшение KV Cache:
85% слоёв используют только Local Attention, вместо обычного (первая картинка). Это сильно уменьшает размер кэша, особенно для длинных контекстов. Этот же подход используется в Gemini и Gemma 2. А ещё он напоминает Jamba, там тоже "тяжёлый" attention использовали только для некоторых слоёв.
Используют Multi-Query Attention, вместо доминирующего сейчас Group Query Attention, это позволяет уменьшить размер кэша в восемь раз по сравнению с индустриальным стандартом, но с сильными просадками в качестве.
KV Cache шерится между слоями (статья).

Это уменьшает размер KV Cache более чем в 20 раз, что делает возможным хранение кэша:
На одну машину влезает KV Cache тысяч пользователей
Сегментирование KV Cache для каждого сообщения (вторая картинка) - позволяет продолжить разговор с любого момента без перегенерации кэша
Чтобы сохранение кэша работало используются Sticky Sessions - пользователей пытаются кидать на серверы где уже сохранён их KV Cache. Выходит с эффективностью более чем 95%.

И инференс и тренировка происходят в int8 😮, об этом они обещают написать ещё один пост.

Из-за этих оптимизаций стоимость инференса для стартапа упала за полтора года в 33 раза, в 13 раз дешевле чем у ближайших конкурентов.

Character ai - это стартап предоставляющий услуги "ИИ вайфу", подробнее я писал вчера тут и тут. Основан Noam Shazeer, одним из авторов трансформера. Он приложил руку ко многим инновациям в LLM за последние 7 лет (MoE, MQA, T5). Кстати из-за него трансформеры чуть не назвали CargoNet, благо не прижилось.

В общем, это не просто очередная обертка над API от OpenaI, тут челы реально разрабатывают свои модели и ускоряют их сами, что заслуживает большого репекта.

Блогпост

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/ai_newz/2961
Create:
Last Update:

Как ускоряют инференс LLM в character.ai. LLM компании обрабатывают 20 тысяч запросов в секунду, так что задача непростая.

Уменьшение KV Cache:
85% слоёв используют только Local Attention, вместо обычного (первая картинка). Это сильно уменьшает размер кэша, особенно для длинных контекстов. Этот же подход используется в Gemini и Gemma 2. А ещё он напоминает Jamba, там тоже "тяжёлый" attention использовали только для некоторых слоёв.
Используют Multi-Query Attention, вместо доминирующего сейчас Group Query Attention, это позволяет уменьшить размер кэша в восемь раз по сравнению с индустриальным стандартом, но с сильными просадками в качестве.
KV Cache шерится между слоями (статья).

Это уменьшает размер KV Cache более чем в 20 раз, что делает возможным хранение кэша:
На одну машину влезает KV Cache тысяч пользователей
Сегментирование KV Cache для каждого сообщения (вторая картинка) - позволяет продолжить разговор с любого момента без перегенерации кэша
Чтобы сохранение кэша работало используются Sticky Sessions - пользователей пытаются кидать на серверы где уже сохранён их KV Cache. Выходит с эффективностью более чем 95%.

И инференс и тренировка происходят в int8 😮, об этом они обещают написать ещё один пост.

Из-за этих оптимизаций стоимость инференса для стартапа упала за полтора года в 33 раза, в 13 раз дешевле чем у ближайших конкурентов.

Character ai - это стартап предоставляющий услуги "ИИ вайфу", подробнее я писал вчера тут и тут. Основан Noam Shazeer, одним из авторов трансформера. Он приложил руку ко многим инновациям в LLM за последние 7 лет (MoE, MQA, T5). Кстати из-за него трансформеры чуть не назвали CargoNet, благо не прижилось.

В общем, это не просто очередная обертка над API от OpenaI, тут челы реально разрабатывают свои модели и ускоряют их сами, что заслуживает большого репекта.

Блогпост

@ai_newz

BY эйай ньюз





Share with your friend now:
group-telegram.com/ai_newz/2961

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The company maintains that it cannot act against individual or group chats, which are “private amongst their participants,” but it will respond to requests in relation to sticker sets, channels and bots which are publicly available. During the invasion of Ukraine, Pavel Durov has wrestled with this issue a lot more prominently than he has before. Channels like Donbass Insider and Bellum Acta, as reported by Foreign Policy, started pumping out pro-Russian propaganda as the invasion began. So much so that the Ukrainian National Security and Defense Council issued a statement labeling which accounts are Russian-backed. Ukrainian officials, in potential violation of the Geneva Convention, have shared imagery of dead and captured Russian soldiers on the platform. WhatsApp, a rival messaging platform, introduced some measures to counter disinformation when Covid-19 was first sweeping the world. Telegram users are able to send files of any type up to 2GB each and access them from any device, with no limit on cloud storage, which has made downloading files more popular on the platform. On February 27th, Durov posted that Channels were becoming a source of unverified information and that the company lacks the ability to check on their veracity. He urged users to be mistrustful of the things shared on Channels, and initially threatened to block the feature in the countries involved for the length of the war, saying that he didn’t want Telegram to be used to aggravate conflict or incite ethnic hatred. He did, however, walk back this plan when it became clear that they had also become a vital communications tool for Ukrainian officials and citizens to help coordinate their resistance and evacuations. Asked about its stance on disinformation, Telegram spokesperson Remi Vaughn told AFP: "As noted by our CEO, the sheer volume of information being shared on channels makes it extremely difficult to verify, so it's important that users double-check what they read."
from ar


Telegram эйай ньюз
FROM American