Notice: file_put_contents(): Write of 4353 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 8192 of 12545 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
эйай ньюз | Telegram Webview: ai_newz/2550 -
Telegram Group & Telegram Channel
Что такое Mixture of Experts (MoE)?

МоЕ — это вид моделей, который используется в куче современных LLM. Далеко ходить не надо — пять из шести моделей, о которых я рассказывал в дайджесте на прошлой неделе, были MoE. GPT-4, судя по слухам, подтверждённым Хуангом – тоже MoE.

Чем MoE отличаются от обычных (dense) моделей?

В MoE часть слоев заменяется на sparse (разреженные) MoE-слои. Они состоят из нескольких "экспертов" — по сути, отдельных небольших слоёв. Для каждого токена используется только небольшая часть экспертов. Решает, какие токены обрабатываются каким экспертами, специальная "сеть-маршрутизатор".  Это позволяет MoE быть быстрее чем dense модели, как в тренировке так и в инференсе.

Почему MoE используют?

Модели с MoE учатся в разы быстрее обычных с таким же количеством компьюта. Авторы DBRX хвастались что их конфиг MoE учится в 2 раза быстрее их же dense модели, а у авторов Qwen-MoE прирост скорости был вообще 4x.

Откуда такая разница между разными MoE в приросте эффективности тренировки?

Когда учится MoE, нужно балансировать потребление памяти, эффективность тренировки и скорость выполнения, что достигается уменьшением или увеличением общего числа экспертов, числа активных экспертов и размера экспертов. Разные команды используют разные конфигурации, отсюда и разница.

Почему MoE не используют везде?

MoE потребляет в разы больше памяти чем обычные модели, что касается и обучения и инференса. На практике большее количество памяти означает большее количество видеокарт. Для запуска Grok, например, нужно 8 видеокарт. Для GPT-4, по слухам, нужно вообще 64 видеокарты. Чтобы это имело финансовый смысл, нужен определенный уровень нагрузки, который есть не у всех. Плюс тот факт, что модель - MoE, часто ставит крест на возможности запуска на потребительских видеокартах.

Как их запускают?

Модель разбивают на несколько видеокарт (например, с помощью tensor parallelism). На каждую видеокарту кидается одинаковое количество экспертов и используют трюки чтобы убедиться что на каждого приходится одинаковая нагрузка.

Как это выглядит применимо к трансформерам?

Обычно эксперты в MoE делаются на основе слоёв MLP внутри трансформера. То есть вместо одного MLP делают несколько параллельных, но одновременно используется только часть из них. Остальные части модели (attention, эмбеддинги) — общие для всех экспертов.

>> Блогпост про MoE с большим числом деталей

#ликбез
@ai_newz



group-telegram.com/ai_newz/2550
Create:
Last Update:

Что такое Mixture of Experts (MoE)?

МоЕ — это вид моделей, который используется в куче современных LLM. Далеко ходить не надо — пять из шести моделей, о которых я рассказывал в дайджесте на прошлой неделе, были MoE. GPT-4, судя по слухам, подтверждённым Хуангом – тоже MoE.

Чем MoE отличаются от обычных (dense) моделей?

В MoE часть слоев заменяется на sparse (разреженные) MoE-слои. Они состоят из нескольких "экспертов" — по сути, отдельных небольших слоёв. Для каждого токена используется только небольшая часть экспертов. Решает, какие токены обрабатываются каким экспертами, специальная "сеть-маршрутизатор".  Это позволяет MoE быть быстрее чем dense модели, как в тренировке так и в инференсе.

Почему MoE используют?

Модели с MoE учатся в разы быстрее обычных с таким же количеством компьюта. Авторы DBRX хвастались что их конфиг MoE учится в 2 раза быстрее их же dense модели, а у авторов Qwen-MoE прирост скорости был вообще 4x.

Откуда такая разница между разными MoE в приросте эффективности тренировки?

Когда учится MoE, нужно балансировать потребление памяти, эффективность тренировки и скорость выполнения, что достигается уменьшением или увеличением общего числа экспертов, числа активных экспертов и размера экспертов. Разные команды используют разные конфигурации, отсюда и разница.

Почему MoE не используют везде?

MoE потребляет в разы больше памяти чем обычные модели, что касается и обучения и инференса. На практике большее количество памяти означает большее количество видеокарт. Для запуска Grok, например, нужно 8 видеокарт. Для GPT-4, по слухам, нужно вообще 64 видеокарты. Чтобы это имело финансовый смысл, нужен определенный уровень нагрузки, который есть не у всех. Плюс тот факт, что модель - MoE, часто ставит крест на возможности запуска на потребительских видеокартах.

Как их запускают?

Модель разбивают на несколько видеокарт (например, с помощью tensor parallelism). На каждую видеокарту кидается одинаковое количество экспертов и используют трюки чтобы убедиться что на каждого приходится одинаковая нагрузка.

Как это выглядит применимо к трансформерам?

Обычно эксперты в MoE делаются на основе слоёв MLP внутри трансформера. То есть вместо одного MLP делают несколько параллельных, но одновременно используется только часть из них. Остальные части модели (attention, эмбеддинги) — общие для всех экспертов.

>> Блогпост про MoE с большим числом деталей

#ликбез
@ai_newz

BY эйай ньюз




Share with your friend now:
group-telegram.com/ai_newz/2550

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In addition, Telegram's architecture limits the ability to slow the spread of false information: the lack of a central public feed, and the fact that comments are easily disabled in channels, reduce the space for public pushback. That hurt tech stocks. For the past few weeks, the 10-year yield has traded between 1.72% and 2%, as traders moved into the bond for safety when Russia headlines were ugly—and out of it when headlines improved. Now, the yield is touching its pandemic-era high. If the yield breaks above that level, that could signal that it’s on a sustainable path higher. Higher long-dated bond yields make future profits less valuable—and many tech companies are valued on the basis of profits forecast for many years in the future. "We're seeing really dramatic moves, and it's all really tied to Ukraine right now, and in a secondary way, in terms of interest rates," Octavio Marenzi, CEO of Opimas, told Yahoo Finance Live on Thursday. "This war in Ukraine is going to give the Fed the ammunition, the cover that it needs, to not raise interest rates too quickly. And I think Jay Powell is a very tepid sort of inflation fighter and he's not going to do as much as he needs to do to get that under control. And this seems like an excuse to kick the can further down the road still and not do too much too soon." Sebi said data, emails and other documents are being retrieved from the seized devices and detailed investigation is in progress. And indeed, volatility has been a hallmark of the market environment so far in 2022, with the S&P 500 still down more than 10% for the year-to-date after first sliding into a correction last month. The CBOE Volatility Index, or VIX, has held at a lofty level of more than 30.
from br


Telegram эйай ньюз
FROM American