Telegram Group & Telegram Channel
InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation #style_transfer #paper

Статья (апрель 2024) про стилизацию картинок в задачах text-to-image и image-to-image. Первая статья в целой серии статей (InstantStyle, InstantStyle-Plus, CSGO) от этих же авторов. Используется подход B-LoRA, IP-adapter, и CLIP-эмбединги.

На вход принимается картинка стиля (образец), текстовый запрос (что хотим сгенерировать), и (опционально) исходная картинка объекта, который будем менять. На выход выдается сгенерированная картинка, соответствующая стилю, текстовому запросу и исходному объекту.

Cистема построена на основе SDXL, пайплайн довольно стандартный — через cross-attention происходит обуславливание на текст, на картинку стиля и на картинку объекта.

Интересные моменты:
1) Для обусловливания на стиль используются векторные операции в пространстве эмбедингов: берется CLIP-эмбединг картинки стиля, из него вычитается CLIP-эмбединг текстового описания той же самой картинки, в результате такого вычитания остается эмбединг, который описывает визуальную составляющую стиля.
2) Cross-attention от стиля накладывается не на все блоки U-net, а на два конкретных блока, один из которых отвечает за цветовой стиль, другой — за расположение объектов на картинке. Приводятся примеры картинок, где для переноса стиля достаточно скопировать цветовую гамму. А также примеры, где переноса цвета недостаточно, например, нужно обязательно повторить изображение в виде круга, и не менять его форму. У таких картинок, пространственное расположение объектов тоже является частью стиля, и его тоже нужно переносить.

🤗HF demo
🔥Project Page
💻Github
📜Paper

@gentech_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/gentech_lab/68
Create:
Last Update:

InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation #style_transfer #paper

Статья (апрель 2024) про стилизацию картинок в задачах text-to-image и image-to-image. Первая статья в целой серии статей (InstantStyle, InstantStyle-Plus, CSGO) от этих же авторов. Используется подход B-LoRA, IP-adapter, и CLIP-эмбединги.

На вход принимается картинка стиля (образец), текстовый запрос (что хотим сгенерировать), и (опционально) исходная картинка объекта, который будем менять. На выход выдается сгенерированная картинка, соответствующая стилю, текстовому запросу и исходному объекту.

Cистема построена на основе SDXL, пайплайн довольно стандартный — через cross-attention происходит обуславливание на текст, на картинку стиля и на картинку объекта.

Интересные моменты:
1) Для обусловливания на стиль используются векторные операции в пространстве эмбедингов: берется CLIP-эмбединг картинки стиля, из него вычитается CLIP-эмбединг текстового описания той же самой картинки, в результате такого вычитания остается эмбединг, который описывает визуальную составляющую стиля.
2) Cross-attention от стиля накладывается не на все блоки U-net, а на два конкретных блока, один из которых отвечает за цветовой стиль, другой — за расположение объектов на картинке. Приводятся примеры картинок, где для переноса стиля достаточно скопировать цветовую гамму. А также примеры, где переноса цвета недостаточно, например, нужно обязательно повторить изображение в виде круга, и не менять его форму. У таких картинок, пространственное расположение объектов тоже является частью стиля, и его тоже нужно переносить.

🤗HF demo
🔥Project Page
💻Github
📜Paper

@gentech_lab

BY Gentech Lab






Share with your friend now:
group-telegram.com/gentech_lab/68

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

After fleeing Russia, the brothers founded Telegram as a way to communicate outside the Kremlin's orbit. They now run it from Dubai, and Pavel Durov says it has more than 500 million monthly active users. Lastly, the web previews of t.me links have been given a new look, adding chat backgrounds and design elements from the fully-features Telegram Web client. To that end, when files are actively downloading, a new icon now appears in the Search bar that users can tap to view and manage downloads, pause and resume all downloads or just individual items, and select one to increase its priority or view it in a chat. Investors took profits on Friday while they could ahead of the weekend, explained Tom Essaye, founder of Sevens Report Research. Saturday and Sunday could easily bring unfortunate news on the war front—and traders would rather be able to sell any recent winnings at Friday’s earlier prices than wait for a potentially lower price at Monday’s open. "We as Ukrainians believe that the truth is on our side, whether it's truth that you're proclaiming about the war and everything else, why would you want to hide it?," he said.
from ms


Telegram Gentech Lab
FROM American