Telegram Group & Telegram Channel
InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation #style_transfer #paper

Статья (апрель 2024) про стилизацию картинок в задачах text-to-image и image-to-image. Первая статья в целой серии статей (InstantStyle, InstantStyle-Plus, CSGO) от этих же авторов. Используется подход B-LoRA, IP-adapter, и CLIP-эмбединги.

На вход принимается картинка стиля (образец), текстовый запрос (что хотим сгенерировать), и (опционально) исходная картинка объекта, который будем менять. На выход выдается сгенерированная картинка, соответствующая стилю, текстовому запросу и исходному объекту.

Cистема построена на основе SDXL, пайплайн довольно стандартный — через cross-attention происходит обуславливание на текст, на картинку стиля и на картинку объекта.

Интересные моменты:
1) Для обусловливания на стиль используются векторные операции в пространстве эмбедингов: берется CLIP-эмбединг картинки стиля, из него вычитается CLIP-эмбединг текстового описания той же самой картинки, в результате такого вычитания остается эмбединг, который описывает визуальную составляющую стиля.
2) Cross-attention от стиля накладывается не на все блоки U-net, а на два конкретных блока, один из которых отвечает за цветовой стиль, другой — за расположение объектов на картинке. Приводятся примеры картинок, где для переноса стиля достаточно скопировать цветовую гамму. А также примеры, где переноса цвета недостаточно, например, нужно обязательно повторить изображение в виде круга, и не менять его форму. У таких картинок, пространственное расположение объектов тоже является частью стиля, и его тоже нужно переносить.

🤗HF demo
🔥Project Page
💻Github
📜Paper

@gentech_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/gentech_lab/68
Create:
Last Update:

InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation #style_transfer #paper

Статья (апрель 2024) про стилизацию картинок в задачах text-to-image и image-to-image. Первая статья в целой серии статей (InstantStyle, InstantStyle-Plus, CSGO) от этих же авторов. Используется подход B-LoRA, IP-adapter, и CLIP-эмбединги.

На вход принимается картинка стиля (образец), текстовый запрос (что хотим сгенерировать), и (опционально) исходная картинка объекта, который будем менять. На выход выдается сгенерированная картинка, соответствующая стилю, текстовому запросу и исходному объекту.

Cистема построена на основе SDXL, пайплайн довольно стандартный — через cross-attention происходит обуславливание на текст, на картинку стиля и на картинку объекта.

Интересные моменты:
1) Для обусловливания на стиль используются векторные операции в пространстве эмбедингов: берется CLIP-эмбединг картинки стиля, из него вычитается CLIP-эмбединг текстового описания той же самой картинки, в результате такого вычитания остается эмбединг, который описывает визуальную составляющую стиля.
2) Cross-attention от стиля накладывается не на все блоки U-net, а на два конкретных блока, один из которых отвечает за цветовой стиль, другой — за расположение объектов на картинке. Приводятся примеры картинок, где для переноса стиля достаточно скопировать цветовую гамму. А также примеры, где переноса цвета недостаточно, например, нужно обязательно повторить изображение в виде круга, и не менять его форму. У таких картинок, пространственное расположение объектов тоже является частью стиля, и его тоже нужно переносить.

🤗HF demo
🔥Project Page
💻Github
📜Paper

@gentech_lab

BY Gentech Lab






Share with your friend now:
group-telegram.com/gentech_lab/68

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"And that set off kind of a battle royale for control of the platform that Durov eventually lost," said Nathalie Maréchal of the Washington advocacy group Ranking Digital Rights. In addition, Telegram now supports the use of third-party streaming tools like OBS Studio and XSplit to broadcast live video, allowing users to add overlays and multi-screen layouts for a more professional look. Telegram boasts 500 million users, who share information individually and in groups in relative security. But Telegram's use as a one-way broadcast channel — which followers can join but not reply to — means content from inauthentic accounts can easily reach large, captive and eager audiences. Ukrainian President Volodymyr Zelensky said in a video message on Tuesday that Ukrainian forces "destroy the invaders wherever we can." Now safely in France with his spouse and three of his children, Kliuchnikov scrolls through Telegram to learn about the devastation happening in his home country.
from ru


Telegram Gentech Lab
FROM American