group-telegram.com/ai_newz/1663
Last Update:
🔥Scalable Diffusion Models with Transformers (DiT)
Как вы заметили, текущие SOTA text-2-image модели вроде DALLE-2, и Stable Diffusion используют допотопную архитектуру U-Net в качестве бэкбона для процесса диффузии.
Один интерн из Meta AI покумекал и решил прикрутить в Latent Diffusion трансформер вместо морально устаревшего U-Neta (идея очевидная, да?). С небольшими трюками, позволяющими эффективно пробрасывать conditioning сигнал во все слои трансформера, мы получем SOTA в условной генерации изображений.
Из позитивных свойств, чем жирнее трансформер (количество слоев и их глубина) в диффузии, тем лучше качество генерации. Нам ещё предстоит понять, где этот предел в размере модели.
Архитектура модели довольна проста в реализации и занимает всего 300 строк кода.
На анимации – блуждание по латентному пространству модели.
❱❱ Код
❱❱ Сайт проекта
❤️ Поиграться в Коллабе
@ai_newz
BY эйай ньюз
Share with your friend now:
group-telegram.com/ai_newz/1663