Telegram Group & Telegram Channel
Forwarded from Complete AI (Andrey Kuznetsov)
⚡️AuraFlow v0.1 — новый open-source text-to-image проект на базе диффузионных трансформеров (по сути имплементация ставшей уже закрытой StableDiffusion 3 с некоторыми архитектурными изменениями)

Из интересного:
📍заменили в большинстве случаев MMDiT блоки (как в SD3) на простые DiT, что сократило затраты на обучение
📍заменили параметризацию на maximal update parametrization, что позволило повысить предсказуемость поведения loss функции при скейлинге архитектуры (при стандартной параметризации можно учить маленькую модель, скажем с Adam’ом, вполне нормально, но при увеличении размеров модели можно получить взрыв градиентов)
📍Recaption everything — подчеркивает важность текстовых описаний в обучении, авторы пишут, что это дало серьёзный буст в качестве
📍Исследуя параметризацию, авторы пришли к оптимальному размеру модели при скейлинге — 6.8B параметров

Модель уже есть в diffusers, откуда её можно просто забрать и поиграться на выходных:
from diffusers import AuraFlowPipeline


Модель показывает SoTA на бенчмарке GenEval — 0.703 (с учётом prompt enhancement)

Пока это v0.1 и, судя по всему, скоро нас будут ждать новые версии модели, возможное даже с MoE подходом. А пока предлагаю поиграться с моделью (сам тоже хочу посмотреть степень понимания текстового описания — пишут, что модель очень хорошо ему следует) — черрипики в закрепе как всегда прекрасны😉

🟢Блог
🟢Веса модели

@complete_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥4👍1



group-telegram.com/mashkka_ds/1605
Create:
Last Update:

⚡️AuraFlow v0.1 — новый open-source text-to-image проект на базе диффузионных трансформеров (по сути имплементация ставшей уже закрытой StableDiffusion 3 с некоторыми архитектурными изменениями)

Из интересного:
📍заменили в большинстве случаев MMDiT блоки (как в SD3) на простые DiT, что сократило затраты на обучение
📍заменили параметризацию на maximal update parametrization, что позволило повысить предсказуемость поведения loss функции при скейлинге архитектуры (при стандартной параметризации можно учить маленькую модель, скажем с Adam’ом, вполне нормально, но при увеличении размеров модели можно получить взрыв градиентов)
📍Recaption everything — подчеркивает важность текстовых описаний в обучении, авторы пишут, что это дало серьёзный буст в качестве
📍Исследуя параметризацию, авторы пришли к оптимальному размеру модели при скейлинге — 6.8B параметров

Модель уже есть в diffusers, откуда её можно просто забрать и поиграться на выходных:

from diffusers import AuraFlowPipeline


Модель показывает SoTA на бенчмарке GenEval — 0.703 (с учётом prompt enhancement)

Пока это v0.1 и, судя по всему, скоро нас будут ждать новые версии модели, возможное даже с MoE подходом. А пока предлагаю поиграться с моделью (сам тоже хочу посмотреть степень понимания текстового описания — пишут, что модель очень хорошо ему следует) — черрипики в закрепе как всегда прекрасны😉

🟢Блог
🟢Веса модели

@complete_ai

BY Mashkka про Data Science




Share with your friend now:
group-telegram.com/mashkka_ds/1605

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Such instructions could actually endanger people — citizens receive air strike warnings via smartphone alerts. "Like the bombing of the maternity ward in Mariupol," he said, "Even before it hits the news, you see the videos on the Telegram channels." Now safely in France with his spouse and three of his children, Kliuchnikov scrolls through Telegram to learn about the devastation happening in his home country. In the past, it was noticed that through bulk SMSes, investors were induced to invest in or purchase the stocks of certain listed companies. In a statement, the regulator said the search and seizure operation was carried out against seven individuals and one corporate entity at multiple locations in Ahmedabad and Bhavnagar in Gujarat, Neemuch in Madhya Pradesh, Delhi, and Mumbai.
from us


Telegram Mashkka про Data Science
FROM American