StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis
Вы, наверное заметили, что про Ганы (GANs) для генерации картинок никто больше не говорит, они как-то отъехали на задний план после появления диффузионных моделей типа SD. Все потому что их трудно тренировать и они часто коллапсируют. Единственное преимущество у Ганов было только в том, что они генерят картинку за один прогон (forward pass), а не за десятки прогонов, как диффузионные модели.
Но вот на поляну вышел новый игрок от Ганов -- StyleGAN-T. Это GAN для tex2image генерации, которые генерит достойные результаты, да еще и супер быстро (0.1 сек на картинку 512x512). Новая архитектура базируется на StyleGAN-XL, но переосмысливает дизайн генератора и дискриминатора и использует СLIP для alignment-а текстового промпта и сгенеренных картинок. См. архитектуру в посте ниже.
В общем, теперь StyleGAN-T генерит по тексту гораздо лучше, чем другие ганы и работает все очень быстро. Но, конечно о качестве полноразмерной модели SD там речи не идет, Ганы все еще всасывают. Но, думаю, все идет к тому, что через ~1 год мы сможем генерить супер качественные картинки по тексту за время в пределах 1 секунды. И будет это что-то среднее между Ганом и диффузионной моделью.
StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis
Вы, наверное заметили, что про Ганы (GANs) для генерации картинок никто больше не говорит, они как-то отъехали на задний план после появления диффузионных моделей типа SD. Все потому что их трудно тренировать и они часто коллапсируют. Единственное преимущество у Ганов было только в том, что они генерят картинку за один прогон (forward pass), а не за десятки прогонов, как диффузионные модели.
Но вот на поляну вышел новый игрок от Ганов -- StyleGAN-T. Это GAN для tex2image генерации, которые генерит достойные результаты, да еще и супер быстро (0.1 сек на картинку 512x512). Новая архитектура базируется на StyleGAN-XL, но переосмысливает дизайн генератора и дискриминатора и использует СLIP для alignment-а текстового промпта и сгенеренных картинок. См. архитектуру в посте ниже.
В общем, теперь StyleGAN-T генерит по тексту гораздо лучше, чем другие ганы и работает все очень быстро. Но, конечно о качестве полноразмерной модели SD там речи не идет, Ганы все еще всасывают. Но, думаю, все идет к тому, что через ~1 год мы сможем генерить супер качественные картинки по тексту за время в пределах 1 секунды. И будет это что-то среднее между Ганом и диффузионной моделью.
Telegram does offer end-to-end encrypted communications through Secret Chats, but this is not the default setting. Standard conversations use the MTProto method, enabling server-client encryption but with them stored on the server for ease-of-access. This makes using Telegram across multiple devices simple, but also means that the regular Telegram chats you’re having with folks are not as secure as you may believe. "We as Ukrainians believe that the truth is on our side, whether it's truth that you're proclaiming about the war and everything else, why would you want to hide it?," he said. Now safely in France with his spouse and three of his children, Kliuchnikov scrolls through Telegram to learn about the devastation happening in his home country. The company maintains that it cannot act against individual or group chats, which are “private amongst their participants,” but it will respond to requests in relation to sticker sets, channels and bots which are publicly available. During the invasion of Ukraine, Pavel Durov has wrestled with this issue a lot more prominently than he has before. Channels like Donbass Insider and Bellum Acta, as reported by Foreign Policy, started pumping out pro-Russian propaganda as the invasion began. So much so that the Ukrainian National Security and Defense Council issued a statement labeling which accounts are Russian-backed. Ukrainian officials, in potential violation of the Geneva Convention, have shared imagery of dead and captured Russian soldiers on the platform. For example, WhatsApp restricted the number of times a user could forward something, and developed automated systems that detect and flag objectionable content.
from us