Telegram Group & Telegram Channel
CSGO: Content-Style Composition in Text-to-Image Generation #style_transfer #paper

Свежая статья конца августа 2024 года представляет модель CSGO (Content-Style Generation Optimization), которая использует подход B-LoRA для раздельного управления контентом и стилем. B-LoRA позволяет эффективно разделять и комбинировать признаки контента и стиля, что улучшает качество генерации изображений.

Архитектура CSGO базируется на SDXL и использует два подхода для управления контентом и стилем.

Контент-контроль:
1. ControlNet: Предобученная ControlNet обрабатывает контентные изображения и текстовые описания, инъектируя информацию в базовую модель через up-sampling блоки, используя блендинг Unet и ControlNet фичей. Это снижает объем выборки, необходимый для обучения модели end-to-end.
2. Кросс-аттеншен слои: Для сохранения контентных признаков в down-sampling блоках используется CLIP Encoder, который вводит контентные данные через дополнительные слои, минимизируя потери структуры изображения.

Стиль-контроль:
1. Style Projection Layer: Стилевые признаки извлекаются с помощью предобученного image encoder и инъектируются через IP-Adapter, что позволяет лучше контролировать наложение стиля.
2. Разделение стиля и контента: Кросс-аттеншен слои предотвращают утечку стилевых признаков в контентные блоки, что помогает сохранять чёткость контента и стиля.

Для обучения модели CSGO был разработан пайплайн Content-Style-Stylized Image Triplets создания триплетов (контентное изображение, стилевое изображение и стилизованное изображение). Используются:
1. Генерация стилизованных изображений с помощью LoRA модулей для контента и стиля.
2. Очистка данных с помощью Content Alignment Score (CAS) для выбора лучших изображений, которые сохраняют контент.
На основе этой процедуры был создан датасет IMAGStyle, включающий 210k триплетов изображений (контент-стиль-стилизованное изображение), который скоро будет выложен. На данный момент это самый большой датасет для задачи Style Transfer.

CSGO превзошла существующие методы, такие как StyleID, InstantStyle, StyleAligned, по показателям точности сохранения контента (CAS) и управления стилем (CSD). Это делает модель особенно полезной для задач графического дизайна, визуального контента и текстовой генерации изображений с точным контролем стилистики.

🤗HF demo
💻Github
📜Project Page

@gentech_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/gentech_lab/54
Create:
Last Update:

CSGO: Content-Style Composition in Text-to-Image Generation #style_transfer #paper

Свежая статья конца августа 2024 года представляет модель CSGO (Content-Style Generation Optimization), которая использует подход B-LoRA для раздельного управления контентом и стилем. B-LoRA позволяет эффективно разделять и комбинировать признаки контента и стиля, что улучшает качество генерации изображений.

Архитектура CSGO базируется на SDXL и использует два подхода для управления контентом и стилем.

Контент-контроль:
1. ControlNet: Предобученная ControlNet обрабатывает контентные изображения и текстовые описания, инъектируя информацию в базовую модель через up-sampling блоки, используя блендинг Unet и ControlNet фичей. Это снижает объем выборки, необходимый для обучения модели end-to-end.
2. Кросс-аттеншен слои: Для сохранения контентных признаков в down-sampling блоках используется CLIP Encoder, который вводит контентные данные через дополнительные слои, минимизируя потери структуры изображения.

Стиль-контроль:
1. Style Projection Layer: Стилевые признаки извлекаются с помощью предобученного image encoder и инъектируются через IP-Adapter, что позволяет лучше контролировать наложение стиля.
2. Разделение стиля и контента: Кросс-аттеншен слои предотвращают утечку стилевых признаков в контентные блоки, что помогает сохранять чёткость контента и стиля.

Для обучения модели CSGO был разработан пайплайн Content-Style-Stylized Image Triplets создания триплетов (контентное изображение, стилевое изображение и стилизованное изображение). Используются:
1. Генерация стилизованных изображений с помощью LoRA модулей для контента и стиля.
2. Очистка данных с помощью Content Alignment Score (CAS) для выбора лучших изображений, которые сохраняют контент.
На основе этой процедуры был создан датасет IMAGStyle, включающий 210k триплетов изображений (контент-стиль-стилизованное изображение), который скоро будет выложен. На данный момент это самый большой датасет для задачи Style Transfer.

CSGO превзошла существующие методы, такие как StyleID, InstantStyle, StyleAligned, по показателям точности сохранения контента (CAS) и управления стилем (CSD). Это делает модель особенно полезной для задач графического дизайна, визуального контента и текстовой генерации изображений с точным контролем стилистики.

🤗HF demo
💻Github
📜Project Page

@gentech_lab

BY Gentech Lab






Share with your friend now:
group-telegram.com/gentech_lab/54

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Markets continued to grapple with the economic and corporate earnings implications relating to the Russia-Ukraine conflict. “We have a ton of uncertainty right now,” said Stephanie Link, chief investment strategist and portfolio manager at Hightower Advisors. “We’re dealing with a war, we’re dealing with inflation. We don’t know what it means to earnings.” On February 27th, Durov posted that Channels were becoming a source of unverified information and that the company lacks the ability to check on their veracity. He urged users to be mistrustful of the things shared on Channels, and initially threatened to block the feature in the countries involved for the length of the war, saying that he didn’t want Telegram to be used to aggravate conflict or incite ethnic hatred. He did, however, walk back this plan when it became clear that they had also become a vital communications tool for Ukrainian officials and citizens to help coordinate their resistance and evacuations. Channels are not fully encrypted, end-to-end. All communications on a Telegram channel can be seen by anyone on the channel and are also visible to Telegram. Telegram may be asked by a government to hand over the communications from a channel. Telegram has a history of standing up to Russian government requests for data, but how comfortable you are relying on that history to predict future behavior is up to you. Because Telegram has this data, it may also be stolen by hackers or leaked by an internal employee. The account, "War on Fakes," was created on February 24, the same day Russian President Vladimir Putin announced a "special military operation" and troops began invading Ukraine. The page is rife with disinformation, according to The Atlantic Council's Digital Forensic Research Lab, which studies digital extremism and published a report examining the channel. But Telegram says people want to keep their chat history when they get a new phone, and they like having a data backup that will sync their chats across multiple devices. And that is why they let people choose whether they want their messages to be encrypted or not. When not turned on, though, chats are stored on Telegram's services, which are scattered throughout the world. But it has "disclosed 0 bytes of user data to third parties, including governments," Telegram states on its website.
from de


Telegram Gentech Lab
FROM American