Telegram Group & Telegram Channel
Что такое Mixture of Experts (MoE)?

МоЕ — это вид моделей, который используется в куче современных LLM. Далеко ходить не надо — пять из шести моделей, о которых я рассказывал в дайджесте на прошлой неделе, были MoE. GPT-4, судя по слухам, подтверждённым Хуангом – тоже MoE.

Чем MoE отличаются от обычных (dense) моделей?

В MoE часть слоев заменяется на sparse (разреженные) MoE-слои. Они состоят из нескольких "экспертов" — по сути, отдельных небольших слоёв. Для каждого токена используется только небольшая часть экспертов. Решает, какие токены обрабатываются каким экспертами, специальная "сеть-маршрутизатор".  Это позволяет MoE быть быстрее чем dense модели, как в тренировке так и в инференсе.

Почему MoE используют?

Модели с MoE учатся в разы быстрее обычных с таким же количеством компьюта. Авторы DBRX хвастались что их конфиг MoE учится в 2 раза быстрее их же dense модели, а у авторов Qwen-MoE прирост скорости был вообще 4x.

Откуда такая разница между разными MoE в приросте эффективности тренировки?

Когда учится MoE, нужно балансировать потребление памяти, эффективность тренировки и скорость выполнения, что достигается уменьшением или увеличением общего числа экспертов, числа активных экспертов и размера экспертов. Разные команды используют разные конфигурации, отсюда и разница.

Почему MoE не используют везде?

MoE потребляет в разы больше памяти чем обычные модели, что касается и обучения и инференса. На практике большее количество памяти означает большее количество видеокарт. Для запуска Grok, например, нужно 8 видеокарт. Для GPT-4, по слухам, нужно вообще 64 видеокарты. Чтобы это имело финансовый смысл, нужен определенный уровень нагрузки, который есть не у всех. Плюс тот факт, что модель - MoE, часто ставит крест на возможности запуска на потребительских видеокартах.

Как их запускают?

Модель разбивают на несколько видеокарт (например, с помощью tensor parallelism). На каждую видеокарту кидается одинаковое количество экспертов и используют трюки чтобы убедиться что на каждого приходится одинаковая нагрузка.

Как это выглядит применимо к трансформерам?

Обычно эксперты в MoE делаются на основе слоёв MLP внутри трансформера. То есть вместо одного MLP делают несколько параллельных, но одновременно используется только часть из них. Остальные части модели (attention, эмбеддинги) — общие для всех экспертов.

>> Блогпост про MoE с большим числом деталей

#ликбез
@ai_newz



group-telegram.com/ai_newz/2550
Create:
Last Update:

Что такое Mixture of Experts (MoE)?

МоЕ — это вид моделей, который используется в куче современных LLM. Далеко ходить не надо — пять из шести моделей, о которых я рассказывал в дайджесте на прошлой неделе, были MoE. GPT-4, судя по слухам, подтверждённым Хуангом – тоже MoE.

Чем MoE отличаются от обычных (dense) моделей?

В MoE часть слоев заменяется на sparse (разреженные) MoE-слои. Они состоят из нескольких "экспертов" — по сути, отдельных небольших слоёв. Для каждого токена используется только небольшая часть экспертов. Решает, какие токены обрабатываются каким экспертами, специальная "сеть-маршрутизатор".  Это позволяет MoE быть быстрее чем dense модели, как в тренировке так и в инференсе.

Почему MoE используют?

Модели с MoE учатся в разы быстрее обычных с таким же количеством компьюта. Авторы DBRX хвастались что их конфиг MoE учится в 2 раза быстрее их же dense модели, а у авторов Qwen-MoE прирост скорости был вообще 4x.

Откуда такая разница между разными MoE в приросте эффективности тренировки?

Когда учится MoE, нужно балансировать потребление памяти, эффективность тренировки и скорость выполнения, что достигается уменьшением или увеличением общего числа экспертов, числа активных экспертов и размера экспертов. Разные команды используют разные конфигурации, отсюда и разница.

Почему MoE не используют везде?

MoE потребляет в разы больше памяти чем обычные модели, что касается и обучения и инференса. На практике большее количество памяти означает большее количество видеокарт. Для запуска Grok, например, нужно 8 видеокарт. Для GPT-4, по слухам, нужно вообще 64 видеокарты. Чтобы это имело финансовый смысл, нужен определенный уровень нагрузки, который есть не у всех. Плюс тот факт, что модель - MoE, часто ставит крест на возможности запуска на потребительских видеокартах.

Как их запускают?

Модель разбивают на несколько видеокарт (например, с помощью tensor parallelism). На каждую видеокарту кидается одинаковое количество экспертов и используют трюки чтобы убедиться что на каждого приходится одинаковая нагрузка.

Как это выглядит применимо к трансформерам?

Обычно эксперты в MoE делаются на основе слоёв MLP внутри трансформера. То есть вместо одного MLP делают несколько параллельных, но одновременно используется только часть из них. Остальные части модели (attention, эмбеддинги) — общие для всех экспертов.

>> Блогпост про MoE с большим числом деталей

#ликбез
@ai_newz

BY эйай ньюз




Share with your friend now:
group-telegram.com/ai_newz/2550

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In 2014, Pavel Durov fled the country after allies of the Kremlin took control of the social networking site most know just as VK. Russia's intelligence agency had asked Durov to turn over the data of anti-Kremlin protesters. Durov refused to do so. In 2018, Russia banned Telegram although it reversed the prohibition two years later. Update March 8, 2022: EFF has clarified that Channels and Groups are not fully encrypted, end-to-end, updated our post to link to Telegram’s FAQ for Cloud and Secret chats, updated to clarify that auto-delete is available for group and channel admins, and added some additional links. "We're seeing really dramatic moves, and it's all really tied to Ukraine right now, and in a secondary way, in terms of interest rates," Octavio Marenzi, CEO of Opimas, told Yahoo Finance Live on Thursday. "This war in Ukraine is going to give the Fed the ammunition, the cover that it needs, to not raise interest rates too quickly. And I think Jay Powell is a very tepid sort of inflation fighter and he's not going to do as much as he needs to do to get that under control. And this seems like an excuse to kick the can further down the road still and not do too much too soon." In this regard, Sebi collaborated with the Telecom Regulatory Authority of India (TRAI) to reduce the vulnerability of the securities market to manipulation through misuse of mass communication medium like bulk SMS.
from us


Telegram эйай ньюз
FROM American