Telegram Group & Telegram Channel
CSGO: Content-Style Composition in Text-to-Image Generation #style_transfer #paper

Свежая статья конца августа 2024 года представляет модель CSGO (Content-Style Generation Optimization), которая использует подход B-LoRA для раздельного управления контентом и стилем. B-LoRA позволяет эффективно разделять и комбинировать признаки контента и стиля, что улучшает качество генерации изображений.

Архитектура CSGO базируется на SDXL и использует два подхода для управления контентом и стилем.

Контент-контроль:
1. ControlNet: Предобученная ControlNet обрабатывает контентные изображения и текстовые описания, инъектируя информацию в базовую модель через up-sampling блоки, используя блендинг Unet и ControlNet фичей. Это снижает объем выборки, необходимый для обучения модели end-to-end.
2. Кросс-аттеншен слои: Для сохранения контентных признаков в down-sampling блоках используется CLIP Encoder, который вводит контентные данные через дополнительные слои, минимизируя потери структуры изображения.

Стиль-контроль:
1. Style Projection Layer: Стилевые признаки извлекаются с помощью предобученного image encoder и инъектируются через IP-Adapter, что позволяет лучше контролировать наложение стиля.
2. Разделение стиля и контента: Кросс-аттеншен слои предотвращают утечку стилевых признаков в контентные блоки, что помогает сохранять чёткость контента и стиля.

Для обучения модели CSGO был разработан пайплайн Content-Style-Stylized Image Triplets создания триплетов (контентное изображение, стилевое изображение и стилизованное изображение). Используются:
1. Генерация стилизованных изображений с помощью LoRA модулей для контента и стиля.
2. Очистка данных с помощью Content Alignment Score (CAS) для выбора лучших изображений, которые сохраняют контент.
На основе этой процедуры был создан датасет IMAGStyle, включающий 210k триплетов изображений (контент-стиль-стилизованное изображение), который скоро будет выложен. На данный момент это самый большой датасет для задачи Style Transfer.

CSGO превзошла существующие методы, такие как StyleID, InstantStyle, StyleAligned, по показателям точности сохранения контента (CAS) и управления стилем (CSD). Это делает модель особенно полезной для задач графического дизайна, визуального контента и текстовой генерации изображений с точным контролем стилистики.

🤗HF demo
💻Github
📜Project Page

@gentech_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/gentech_lab/54
Create:
Last Update:

CSGO: Content-Style Composition in Text-to-Image Generation #style_transfer #paper

Свежая статья конца августа 2024 года представляет модель CSGO (Content-Style Generation Optimization), которая использует подход B-LoRA для раздельного управления контентом и стилем. B-LoRA позволяет эффективно разделять и комбинировать признаки контента и стиля, что улучшает качество генерации изображений.

Архитектура CSGO базируется на SDXL и использует два подхода для управления контентом и стилем.

Контент-контроль:
1. ControlNet: Предобученная ControlNet обрабатывает контентные изображения и текстовые описания, инъектируя информацию в базовую модель через up-sampling блоки, используя блендинг Unet и ControlNet фичей. Это снижает объем выборки, необходимый для обучения модели end-to-end.
2. Кросс-аттеншен слои: Для сохранения контентных признаков в down-sampling блоках используется CLIP Encoder, который вводит контентные данные через дополнительные слои, минимизируя потери структуры изображения.

Стиль-контроль:
1. Style Projection Layer: Стилевые признаки извлекаются с помощью предобученного image encoder и инъектируются через IP-Adapter, что позволяет лучше контролировать наложение стиля.
2. Разделение стиля и контента: Кросс-аттеншен слои предотвращают утечку стилевых признаков в контентные блоки, что помогает сохранять чёткость контента и стиля.

Для обучения модели CSGO был разработан пайплайн Content-Style-Stylized Image Triplets создания триплетов (контентное изображение, стилевое изображение и стилизованное изображение). Используются:
1. Генерация стилизованных изображений с помощью LoRA модулей для контента и стиля.
2. Очистка данных с помощью Content Alignment Score (CAS) для выбора лучших изображений, которые сохраняют контент.
На основе этой процедуры был создан датасет IMAGStyle, включающий 210k триплетов изображений (контент-стиль-стилизованное изображение), который скоро будет выложен. На данный момент это самый большой датасет для задачи Style Transfer.

CSGO превзошла существующие методы, такие как StyleID, InstantStyle, StyleAligned, по показателям точности сохранения контента (CAS) и управления стилем (CSD). Это делает модель особенно полезной для задач графического дизайна, визуального контента и текстовой генерации изображений с точным контролем стилистики.

🤗HF demo
💻Github
📜Project Page

@gentech_lab

BY Gentech Lab






Share with your friend now:
group-telegram.com/gentech_lab/54

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The Dow Jones Industrial Average fell 230 points, or 0.7%. Meanwhile, the S&P 500 and the Nasdaq Composite dropped 1.3% and 2.2%, respectively. All three indexes began the day with gains before selling off. And while money initially moved into stocks in the morning, capital moved out of safe-haven assets. The price of the 10-year Treasury note fell Friday, sending its yield up to 2% from a March closing low of 1.73%. At this point, however, Durov had already been working on Telegram with his brother, and further planned a mobile-first social network with an explicit focus on anti-censorship. Later in April, he told TechCrunch that he had left Russia and had “no plans to go back,” saying that the nation was currently “incompatible with internet business at the moment.” He added later that he was looking for a country that matched his libertarian ideals to base his next startup. Right now the digital security needs of Russians and Ukrainians are very different, and they lead to very different caveats about how to mitigate the risks associated with using Telegram. For Ukrainians in Ukraine, whose physical safety is at risk because they are in a war zone, digital security is probably not their highest priority. They may value access to news and communication with their loved ones over making sure that all of their communications are encrypted in such a manner that they are indecipherable to Telegram, its employees, or governments with court orders. That hurt tech stocks. For the past few weeks, the 10-year yield has traded between 1.72% and 2%, as traders moved into the bond for safety when Russia headlines were ugly—and out of it when headlines improved. Now, the yield is touching its pandemic-era high. If the yield breaks above that level, that could signal that it’s on a sustainable path higher. Higher long-dated bond yields make future profits less valuable—and many tech companies are valued on the basis of profits forecast for many years in the future.
from in


Telegram Gentech Lab
FROM American