​StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis

эйай ньюз

StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis

Вы, наверное заметили, что про Ганы (GANs) для генерации картинок никто больше не говорит, они как-то отъехали на задний план после появления диффузионных моделей типа SD. Все потому что их трудно тренировать и они часто коллапсируют. Единственное преимущество у Ганов было только в том, что они генерят картинку за один прогон (forward pass), а не за десятки прогонов, как диффузионные модели.

Но вот на поляну вышел новый игрок от Ганов -- StyleGAN-T. Это GAN для tex2image генерации, которые генерит достойные результаты, да еще и супер быстро (0.1 сек на картинку 512x512). Новая архитектура базируется на StyleGAN-XL, но переосмысливает дизайн генератора и дискриминатора и использует СLIP для alignment-а текстового промпта и сгенеренных картинок. См. архитектуру в посте ниже.

В общем, теперь StyleGAN-T генерит по тексту гораздо лучше, чем другие ганы и работает все очень быстро. Но, конечно о качестве полноразмерной модели SD там речи не идет, Ганы все еще всасывают. Но, думаю, все идет к тому, что через ~1 год мы сможем генерить супер качественные картинки по тексту за время в пределах 1 секунды. И будет это что-то среднее между Ганом и диффузионной моделью.

❱❱ Сайт проекта (код скоро будет)

@ai_newz

YouTube

StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis

Project page: https://sites.google.com/view/stylegan-t/

www.group-telegram.com/ye/ai_newz.com/1735

14.4K viewsedited Jan 24, 2023 at 14:14