Telegram Group & Telegram Channel
CSGO: Content-Style Composition in Text-to-Image Generation #style_transfer #paper

Свежая статья конца августа 2024 года представляет модель CSGO (Content-Style Generation Optimization), которая использует подход B-LoRA для раздельного управления контентом и стилем. B-LoRA позволяет эффективно разделять и комбинировать признаки контента и стиля, что улучшает качество генерации изображений.

Архитектура CSGO базируется на SDXL и использует два подхода для управления контентом и стилем.

Контент-контроль:
1. ControlNet: Предобученная ControlNet обрабатывает контентные изображения и текстовые описания, инъектируя информацию в базовую модель через up-sampling блоки, используя блендинг Unet и ControlNet фичей. Это снижает объем выборки, необходимый для обучения модели end-to-end.
2. Кросс-аттеншен слои: Для сохранения контентных признаков в down-sampling блоках используется CLIP Encoder, который вводит контентные данные через дополнительные слои, минимизируя потери структуры изображения.

Стиль-контроль:
1. Style Projection Layer: Стилевые признаки извлекаются с помощью предобученного image encoder и инъектируются через IP-Adapter, что позволяет лучше контролировать наложение стиля.
2. Разделение стиля и контента: Кросс-аттеншен слои предотвращают утечку стилевых признаков в контентные блоки, что помогает сохранять чёткость контента и стиля.

Для обучения модели CSGO был разработан пайплайн Content-Style-Stylized Image Triplets создания триплетов (контентное изображение, стилевое изображение и стилизованное изображение). Используются:
1. Генерация стилизованных изображений с помощью LoRA модулей для контента и стиля.
2. Очистка данных с помощью Content Alignment Score (CAS) для выбора лучших изображений, которые сохраняют контент.
На основе этой процедуры был создан датасет IMAGStyle, включающий 210k триплетов изображений (контент-стиль-стилизованное изображение), который скоро будет выложен. На данный момент это самый большой датасет для задачи Style Transfer.

CSGO превзошла существующие методы, такие как StyleID, InstantStyle, StyleAligned, по показателям точности сохранения контента (CAS) и управления стилем (CSD). Это делает модель особенно полезной для задач графического дизайна, визуального контента и текстовой генерации изображений с точным контролем стилистики.

🤗HF demo
💻Github
📜Project Page

@gentech_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/gentech_lab/54
Create:
Last Update:

CSGO: Content-Style Composition in Text-to-Image Generation #style_transfer #paper

Свежая статья конца августа 2024 года представляет модель CSGO (Content-Style Generation Optimization), которая использует подход B-LoRA для раздельного управления контентом и стилем. B-LoRA позволяет эффективно разделять и комбинировать признаки контента и стиля, что улучшает качество генерации изображений.

Архитектура CSGO базируется на SDXL и использует два подхода для управления контентом и стилем.

Контент-контроль:
1. ControlNet: Предобученная ControlNet обрабатывает контентные изображения и текстовые описания, инъектируя информацию в базовую модель через up-sampling блоки, используя блендинг Unet и ControlNet фичей. Это снижает объем выборки, необходимый для обучения модели end-to-end.
2. Кросс-аттеншен слои: Для сохранения контентных признаков в down-sampling блоках используется CLIP Encoder, который вводит контентные данные через дополнительные слои, минимизируя потери структуры изображения.

Стиль-контроль:
1. Style Projection Layer: Стилевые признаки извлекаются с помощью предобученного image encoder и инъектируются через IP-Adapter, что позволяет лучше контролировать наложение стиля.
2. Разделение стиля и контента: Кросс-аттеншен слои предотвращают утечку стилевых признаков в контентные блоки, что помогает сохранять чёткость контента и стиля.

Для обучения модели CSGO был разработан пайплайн Content-Style-Stylized Image Triplets создания триплетов (контентное изображение, стилевое изображение и стилизованное изображение). Используются:
1. Генерация стилизованных изображений с помощью LoRA модулей для контента и стиля.
2. Очистка данных с помощью Content Alignment Score (CAS) для выбора лучших изображений, которые сохраняют контент.
На основе этой процедуры был создан датасет IMAGStyle, включающий 210k триплетов изображений (контент-стиль-стилизованное изображение), который скоро будет выложен. На данный момент это самый большой датасет для задачи Style Transfer.

CSGO превзошла существующие методы, такие как StyleID, InstantStyle, StyleAligned, по показателям точности сохранения контента (CAS) и управления стилем (CSD). Это делает модель особенно полезной для задач графического дизайна, визуального контента и текстовой генерации изображений с точным контролем стилистики.

🤗HF demo
💻Github
📜Project Page

@gentech_lab

BY Gentech Lab






Share with your friend now:
group-telegram.com/gentech_lab/54

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

So, uh, whenever I hear about Telegram, it’s always in relation to something bad. What gives? READ MORE "We as Ukrainians believe that the truth is on our side, whether it's truth that you're proclaiming about the war and everything else, why would you want to hide it?," he said. "Markets were cheering this economic recovery and return to strong economic growth, but the cheers will turn to tears if the inflation outbreak pushes businesses and consumers to the brink of recession," he added. There was another possible development: Reuters also reported that Ukraine said that Belarus could soon join the invasion of Ukraine. However, the AFP, citing a Pentagon official, said the U.S. hasn’t yet seen evidence that Belarusian troops are in Ukraine.
from us


Telegram Gentech Lab
FROM American