Telegram Group & Telegram Channel
Scaling Diffusion Transformers to 16 B parameters with MoE

Китайцы месяц назад заскейлили DiT до 16.5 млрд параметров с помощью Mixture of Experts (MoE). Это могла бы быть самая большая DiT диффузия в опенсорсе на сегодняшней день, если бы веса 16.5B выложоли. Но шансы этого близки к нулю, т.к. я прождал месяц, а весов большой модели все еще нет.

Экспертов вставили в каждый MLP блок, то есть вместо одного такого блока у нас теперь K параллельно, которые активируются в зависимости от входного токена. Во время инференса активны только 4 эксперта из К в каждый момент ( 2 "общих" эксперта активны всегда).

В чем профит использовать MoE?
- По сравнению с Dense моделью аналогичного размера (где у нас один жирный MLP блок), МоE позволяет условно распределить знания по отдельным экспертам, каждый из которых имеет меньший размер. За счет этого во время инференса мы можем активировать только часть экспертов и экономить на вычислениях.
- Выигрыша по памяти MoE в этом случае не дает - нам все равно нужно загружать сразу всех экспертов в память, т.к выбор экспертов происходит на уровне токенов.
- Если бы мы выбирали экспертов на уровне промпта или шага t, то можно было бы сэкономить и память. Но тут так не делают.

Тренят модель на:
– На 1.3M картинках из Imagenet и на синтетике.
– Нагенерили 5M картинок 512x512 для Imagenet классов с помощью SD3-2B и SDXL, а затем фильтранули клипом. Это для того, чтобы насытить данными жирную 16.5B модель, ведь 1.3M из Imagenet тут уже мало.

Результаты:
Картинки в статье выглядят так себе, наверное плохо черипикали. Но чего ожидать от генерации по классам на Imagenet. А по метрикам у них SOTA. Что ж, ждем аналогичную text-2-image модель.

В репе есть код тренировки (на DeepSpeed). Недавно добавили тренировку на основе Flow Matching, как это делают в Flux и SD3 - авторы пишут что таким методом модель быстрее сходится и дает лучшие результаты (это полезное замечание).

Вот веса моделей:
- B/2 с 8-ю экспертам (800 M, 12 блоков)
- G/2 с 16-ю экспертами (16.5 B, 40 блоков) - не выложили ха-ха.

@ai_newz



group-telegram.com/ai_newz/3140
Create:
Last Update:

Scaling Diffusion Transformers to 16 B parameters with MoE

Китайцы месяц назад заскейлили DiT до 16.5 млрд параметров с помощью Mixture of Experts (MoE). Это могла бы быть самая большая DiT диффузия в опенсорсе на сегодняшней день, если бы веса 16.5B выложоли. Но шансы этого близки к нулю, т.к. я прождал месяц, а весов большой модели все еще нет.

Экспертов вставили в каждый MLP блок, то есть вместо одного такого блока у нас теперь K параллельно, которые активируются в зависимости от входного токена. Во время инференса активны только 4 эксперта из К в каждый момент ( 2 "общих" эксперта активны всегда).

В чем профит использовать MoE?
- По сравнению с Dense моделью аналогичного размера (где у нас один жирный MLP блок), МоE позволяет условно распределить знания по отдельным экспертам, каждый из которых имеет меньший размер. За счет этого во время инференса мы можем активировать только часть экспертов и экономить на вычислениях.
- Выигрыша по памяти MoE в этом случае не дает - нам все равно нужно загружать сразу всех экспертов в память, т.к выбор экспертов происходит на уровне токенов.
- Если бы мы выбирали экспертов на уровне промпта или шага t, то можно было бы сэкономить и память. Но тут так не делают.

Тренят модель на:
– На 1.3M картинках из Imagenet и на синтетике.
– Нагенерили 5M картинок 512x512 для Imagenet классов с помощью SD3-2B и SDXL, а затем фильтранули клипом. Это для того, чтобы насытить данными жирную 16.5B модель, ведь 1.3M из Imagenet тут уже мало.

Результаты:
Картинки в статье выглядят так себе, наверное плохо черипикали. Но чего ожидать от генерации по классам на Imagenet. А по метрикам у них SOTA. Что ж, ждем аналогичную text-2-image модель.

В репе есть код тренировки (на DeepSpeed). Недавно добавили тренировку на основе Flow Matching, как это делают в Flux и SD3 - авторы пишут что таким методом модель быстрее сходится и дает лучшие результаты (это полезное замечание).

Вот веса моделей:
- B/2 с 8-ю экспертам (800 M, 12 блоков)
- G/2 с 16-ю экспертами (16.5 B, 40 блоков) - не выложили ха-ха.

@ai_newz

BY эйай ньюз





❌Photos not found?❌Click here to update cache.


Share with your friend now:
group-telegram.com/ai_newz/3140

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram Messenger Blocks Navalny Bot During Russian Election The S&P 500 fell 1.3% to 4,204.36, and the Dow Jones Industrial Average was down 0.7% to 32,943.33. The Dow posted a fifth straight weekly loss — its longest losing streak since 2019. The Nasdaq Composite tumbled 2.2% to 12,843.81. Though all three indexes opened in the green, stocks took a turn after a new report showed U.S. consumer sentiment deteriorated more than expected in early March as consumers' inflation expectations soared to the highest since 1981. At its heart, Telegram is little more than a messaging app like WhatsApp or Signal. But it also offers open channels that enable a single user, or a group of users, to communicate with large numbers in a method similar to a Twitter account. This has proven to be both a blessing and a curse for Telegram and its users, since these channels can be used for both good and ill. Right now, as Wired reports, the app is a key way for Ukrainians to receive updates from the government during the invasion. Artem Kliuchnikov and his family fled Ukraine just days before the Russian invasion. And while money initially moved into stocks in the morning, capital moved out of safe-haven assets. The price of the 10-year Treasury note fell Friday, sending its yield up to 2% from a March closing low of 1.73%.
from us


Telegram эйай ньюз
FROM American