Telegram Group Search
CSGO: Content-Style Composition in Text-to-Image Generation #style_transfer #paper

Свежая статья конца августа 2024 года представляет модель CSGO (Content-Style Generation Optimization), которая использует подход B-LoRA для раздельного управления контентом и стилем. B-LoRA позволяет эффективно разделять и комбинировать признаки контента и стиля, что улучшает качество генерации изображений.

Архитектура CSGO базируется на SDXL и использует два подхода для управления контентом и стилем.

Контент-контроль:
1. ControlNet: Предобученная ControlNet обрабатывает контентные изображения и текстовые описания, инъектируя информацию в базовую модель через up-sampling блоки, используя блендинг Unet и ControlNet фичей. Это снижает объем выборки, необходимый для обучения модели end-to-end.
2. Кросс-аттеншен слои: Для сохранения контентных признаков в down-sampling блоках используется CLIP Encoder, который вводит контентные данные через дополнительные слои, минимизируя потери структуры изображения.

Стиль-контроль:
1. Style Projection Layer: Стилевые признаки извлекаются с помощью предобученного image encoder и инъектируются через IP-Adapter, что позволяет лучше контролировать наложение стиля.
2. Разделение стиля и контента: Кросс-аттеншен слои предотвращают утечку стилевых признаков в контентные блоки, что помогает сохранять чёткость контента и стиля.

Для обучения модели CSGO был разработан пайплайн Content-Style-Stylized Image Triplets создания триплетов (контентное изображение, стилевое изображение и стилизованное изображение). Используются:
1. Генерация стилизованных изображений с помощью LoRA модулей для контента и стиля.
2. Очистка данных с помощью Content Alignment Score (CAS) для выбора лучших изображений, которые сохраняют контент.
На основе этой процедуры был создан датасет IMAGStyle, включающий 210k триплетов изображений (контент-стиль-стилизованное изображение), который скоро будет выложен. На данный момент это самый большой датасет для задачи Style Transfer.

CSGO превзошла существующие методы, такие как StyleID, InstantStyle, StyleAligned, по показателям точности сохранения контента (CAS) и управления стилем (CSD). Это делает модель особенно полезной для задач графического дизайна, визуального контента и текстовой генерации изображений с точным контролем стилистики.

🤗HF demo
💻Github
📜Project Page

@gentech_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Собрали понравившиеся презентации на AiConf #материалы

На днях было выступление на прикладной конференции по Data Science AiСonf в Москве. Рассказывали, как мы последние несколько месяцев строили Виртуальную примерку одежды для кабинета мерчанта (ссылка на презентацию). Хочется оставить здесь список презентаций с выступлений, которые показались особенно полезными для нашего направления ресерча:

Визуальные языковые модели: от разбора архитектуры до запуска. Эмиль сделал хороший обзор VLM моделей и рассказал как они в SberDevices строили GigaChat Vision.

Диффузионные модели для мобильных телефонов. В докладе много полезной информации о том, как ребята из Huawei заставляют большие диффузионные модели работать на мобильных устройствах. Подробно разобраны их шаги упрощения архитектуры модели при решении задачи генерации лиц людей.

Генерация видео: from zero to hero. Высокоуровневый обзор текущего состояния области генерации видео по тексту. Денис Демитров из Sber AI рассказал подробности, как они строят лучшую в стране text-to-video модель (сейчас это Kandinsky Video 1.1).

Эволюция Transformer: как меняется самая успешная архитектура в DL. Наш коллега из ecom.tech Мурат Апишев сделал подробный рассказ о том, как модернизировалась с течением времени архитектура Transformer, какие появлялись хаки и улучшения.
MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion #motion_generation #paper

Статья про генерацию анимированного аватара (май 2024). По двум входным видео аватаров в движении (target и source) генерируется новое видео, сохряняя identity аватара и фон из source видео, а движения аватара - из target видео. Уникальность статьи заключается в том, что авторы отказываются от тяжеловесных блоков в пользу небольших сверточных модулей поверх unet архитектуры для поддержи пайплайна генерации видео, таким образом оптимизуруя 80% gpu memory относительно MotionEditor.

В основе архитектуры лежат два SD1.5 unet (reconstruction и editing), связанными с двумя модулями: Pose controlller и Reference contoller. Оба модуля представляют из себя небольшую сверточную сеть с 4 блоками по 2 свертки в каждом блоке.
а) Pose controller отвечает за создание эмбеддинга из позы target видео, который добавляется к шуму в editing unet.
b) Reference controller достает фичи identity аватара и фона c source видео, и добавляет к hidden слоям encoder recontruction unet.

На этапе инференса добавляется guidance, который двигает шум во время denoising process в нужное направление: guidance основан на сравнении внутренних фичей reconstruction и editing unet, таким образом сгенерированные фреймы согласованы со стилем исходного source видео.

Также авторы используют кастомные лоссы, которые считаются отдельно для аватара и фона, для этого вычисляется маска аватара на исходной оригинальной картинке и предсказывается маска аватара уже на сгенерированном фрейме. Для этого используются DWPose и их собственный сегментатор.

Модель учится в два этапа: img2img и video2video. Pose controller и Reference controller, инициализируются нормальным шумом. Для unet претрейн - это SD1.5, для temporal слоев претрейн - AnimateDiff. В датасете всего было 3к видео длины 60-90 секунд, для img2img стадии доставались два фрейма из одного и того видео, для video2video стадии - два кусочка видео из одного и того же видео.

💻Github
📜Paper

@gentech_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
SDEdit: Guided Image Synthesis and Editing with Stochastic Differential Equations #paper

Статья не новая, январь 2022, но дает хорошее понимание основ того, как можно управлять диффузией. На вход подается картинка, которую нужно отредактировать, на выходе получаем измененную картинку. Может быть несколько вариантов исходной картинки — а) либо набросок от руки, б) либо картинка, поверх которой что-то подрисовано от руки, в) либо картинка, на которую помещен фрагмент другой картинки.

Вся обработка — в пиксельном пространстве. Сначала на исходную картинку накладывается случайный шум, затем все это итерационно денойзится обратно в реальный домен. Все наброски превращаются в части картинки, консистентные по содержанию с остальной картинкой. Денойзинг делается через решение SDE (стохастических дифференциальных уравнений). Используется модель, которая предсказывает score-функцию, с помощью которой делается шаг денойзинга. Для апроксимации score-функции используется сеть U-net.

В статье модели не обучаются, взяты три предобученных модели (лица, спальни, церкви) - domain-specific предобучение. А вот task-specific training не требуется.

Описывается две оценки качества генерации:
1) Реализм (генерация картинок без искажений): в качестве метрики используется Kernel Inception Score (KID) между распределениями сгенерированного датасета и датасета известных картинок.
2) Правдоподность (faithfulness - схожесть с заданным наброском): здесь за метрику берется L2-расстояние между исходным наброском и результатом.
Эти оценки взаимоисключающие. Регулируя вес, с которым смешиваются исходный набросок и случайный шум — можно варьировать качество либо в одну, либо в другую сторону.

🟡Colab
💻Github
📜Paper

@gentech_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Training Diffusion Models With Reinforcement Learing #paper

Крайне интересная статья (май 2023), которая предлагает новый способ обучения диффузионных моделей в рамках сложно формализуемых задач (human preference, compressability, aesthetics, etc.) на примере дообучения SD1.5.

Диффузионный процесс может быть рассмотрен как марковский процесс принятия решений в несколько шагов, благодаря чему к нему применимы стандартные методы reinforcement learning. В данном случае используется алгоритм REINFORCE, где в качестве policy выступает сама диффузионная модель, а в качестве reward function — кусочно заданная функция возвращающая ноль на всех шагах, кроме последнего. На последнем шаге reward равен значению, которое по готовому изображению выдаст выбранный метод оценки изображений.

Также для ускорения обучения авторы вместо обычного Monte-Carlo используют Importance Sampling, что позволяет переиспользовать одни и те же собранные траектории для совершения нескольких шагов градиентного спуска. Основную проблему этого метода (большая неточность при достаточно сильных отклонениях от изначальных весов из которых были получены траектории) авторы предлагают решать с помощью clipping, не давая модели делать слишком большие шаги за раз.

Метод был протестирован на четырёх задачах: aesthetic quality, prompt alignment, jpeg compressibility и jpeg incompressibility и везде показал улучшение результатов. Однако у метода есть и проблемы: две самых больших — bias в моделях используемых для автоматической оценки и reward exploitation.

💻 Github
📜 Paper

@gentech_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation #style_transfer #paper

Статья (апрель 2024) про стилизацию картинок в задачах text-to-image и image-to-image. Первая статья в целой серии статей (InstantStyle, InstantStyle-Plus, CSGO) от этих же авторов. Используется подход B-LoRA, IP-adapter, и CLIP-эмбединги.

На вход принимается картинка стиля (образец), текстовый запрос (что хотим сгенерировать), и (опционально) исходная картинка объекта, который будем менять. На выход выдается сгенерированная картинка, соответствующая стилю, текстовому запросу и исходному объекту.

Cистема построена на основе SDXL, пайплайн довольно стандартный — через cross-attention происходит обуславливание на текст, на картинку стиля и на картинку объекта.

Интересные моменты:
1) Для обусловливания на стиль используются векторные операции в пространстве эмбедингов: берется CLIP-эмбединг картинки стиля, из него вычитается CLIP-эмбединг текстового описания той же самой картинки, в результате такого вычитания остается эмбединг, который описывает визуальную составляющую стиля.
2) Cross-attention от стиля накладывается не на все блоки U-net, а на два конкретных блока, один из которых отвечает за цветовой стиль, другой — за расположение объектов на картинке. Приводятся примеры картинок, где для переноса стиля достаточно скопировать цветовую гамму. А также примеры, где переноса цвета недостаточно, например, нужно обязательно повторить изображение в виде круга, и не менять его форму. У таких картинок, пространственное расположение объектов тоже является частью стиля, и его тоже нужно переносить.

🤗HF demo
🔥Project Page
💻Github
📜Paper

@gentech_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
InstantStyle-Plus: Style Transfer with Content-Preserving in Text-to-Image Generation #style_transfer #paper

Статья (июнь 2024) про стилизацию картинок в задачах image-to-image. Вторая статья в серии статей (InstantStyle, InstantStyle-Plus, CSGO) от этих же авторов. На вход принимается картинка стиля (образец) и исходная картинка объекта, который хотим менять. На выход выдается сгенерированная картинка, в которой исходный объект перерисован в другом стиле.

В статье много раз отмечается, что основной фокус сделан на сохранении исходного объекта, чтобы вносить в него как можно меньше искажений при изменении стиля. Cистема построена на основе SDXL, fine-tuning не требуется, вся работа — в режиме инференса.

Обуславливание выполняется одновременно за счет нескольких механизмов:

для контента:
- картинка объекта переводится в латентное пространство и там делается инверсия в зашумленное состояние (используется модель ReNoise). С этого нового начального состояния начинается процесс денойзинга.
- картинка объекта проходит через Tile ControlNet (особый вид ControlNet, изначально предназначен для upscaling, предобучен на больших картинках, составленных из повторяющихся маленьких картинок) и подается на каждом шаге денойзинга через cross-attention.
- картинка объекта проходит через Image Adapter (IP-Adapter) и тоже подается на каждом шаге денойзинга через cross-attention.

для стиля:
- картинка стиля проходит через Style Adapter (IP-Adapter) и подается на каждом шаге денойзинга через cross-attention (в соответствии с рекомендациями InstantStyle — только в один конкретный блок U-net).
- на каждом шаге результат сравнивается с картинкой стиля через CLIP Style Similarity, и эта разность используется в качестве guidance на следующих шагах денойзинга.

🔥Project Page
💻Github
📜Paper

@gentech_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Self-Rectifying Diffusion Sampling with Perturbed-Attention Guidance #paper

В относительно новой статье (март 2024) предлагается новый способ sampling guidance для unconditional generation с помощью диффузионных моделей, который, к тому же, применим и к задаче conditional generation тоже.

Авторы отмечают, что своим успехом диффузионные модели во многом обязаны classifier и classifier-free guidance (далее CG и CFG, соответственно) — методам sampling guidance, которые позволяют достигать более точного следования condition. Однако у этих методов есть несколько проблем: в случае с CG необходимо обучать классификатор под каждый класс, также уменьшается разнообразие генераций, эти методы нельзя применить к unconditional generation.

В качестве альтернативы предлагается некоторое переосмысление CFG для unconditional generationPerturbed-Attention Guidance или PAG. Авторы замечают, что в блоках SA (self attention) матрицы Q и K отвечают за структуру генерации, а V за её наполнение (content). Так как основная часть артефактов в рамках uncoditional generation представляет из себя структурные неточности, то в рамках подхода в формуле SA Softmax(Q * K^T) заменяется на единичную матрицу. Теперь, по аналогии с CFG на каждом шаге генерации латент расшумлённый с PAG вычитается из unconditional латента с определённым коэффициентом. Авторы работы утверждают, что получающиеся траектории уводят диффузионный процесс в сторону лучших генераций, что подтверждается их экспериментами.

Стоит так же отметить, что PAG можно комбинировать с CFG в задаче conditional generation, что также приводит к улучшению качества.

🔥Project
💻Github (diffusers)
📜Paper

@gentech_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/06/28 05:08:46
Back to Top
HTML Embed Code: