Telegram Group & Telegram Channel
InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation #style_transfer #paper

Статья (апрель 2024) про стилизацию картинок в задачах text-to-image и image-to-image. Первая статья в целой серии статей (InstantStyle, InstantStyle-Plus, CSGO) от этих же авторов. Используется подход B-LoRA, IP-adapter, и CLIP-эмбединги.

На вход принимается картинка стиля (образец), текстовый запрос (что хотим сгенерировать), и (опционально) исходная картинка объекта, который будем менять. На выход выдается сгенерированная картинка, соответствующая стилю, текстовому запросу и исходному объекту.

Cистема построена на основе SDXL, пайплайн довольно стандартный — через cross-attention происходит обуславливание на текст, на картинку стиля и на картинку объекта.

Интересные моменты:
1) Для обусловливания на стиль используются векторные операции в пространстве эмбедингов: берется CLIP-эмбединг картинки стиля, из него вычитается CLIP-эмбединг текстового описания той же самой картинки, в результате такого вычитания остается эмбединг, который описывает визуальную составляющую стиля.
2) Cross-attention от стиля накладывается не на все блоки U-net, а на два конкретных блока, один из которых отвечает за цветовой стиль, другой — за расположение объектов на картинке. Приводятся примеры картинок, где для переноса стиля достаточно скопировать цветовую гамму. А также примеры, где переноса цвета недостаточно, например, нужно обязательно повторить изображение в виде круга, и не менять его форму. У таких картинок, пространственное расположение объектов тоже является частью стиля, и его тоже нужно переносить.

🤗HF demo
🔥Project Page
💻Github
📜Paper

@gentech_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/gentech_lab/68
Create:
Last Update:

InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation #style_transfer #paper

Статья (апрель 2024) про стилизацию картинок в задачах text-to-image и image-to-image. Первая статья в целой серии статей (InstantStyle, InstantStyle-Plus, CSGO) от этих же авторов. Используется подход B-LoRA, IP-adapter, и CLIP-эмбединги.

На вход принимается картинка стиля (образец), текстовый запрос (что хотим сгенерировать), и (опционально) исходная картинка объекта, который будем менять. На выход выдается сгенерированная картинка, соответствующая стилю, текстовому запросу и исходному объекту.

Cистема построена на основе SDXL, пайплайн довольно стандартный — через cross-attention происходит обуславливание на текст, на картинку стиля и на картинку объекта.

Интересные моменты:
1) Для обусловливания на стиль используются векторные операции в пространстве эмбедингов: берется CLIP-эмбединг картинки стиля, из него вычитается CLIP-эмбединг текстового описания той же самой картинки, в результате такого вычитания остается эмбединг, который описывает визуальную составляющую стиля.
2) Cross-attention от стиля накладывается не на все блоки U-net, а на два конкретных блока, один из которых отвечает за цветовой стиль, другой — за расположение объектов на картинке. Приводятся примеры картинок, где для переноса стиля достаточно скопировать цветовую гамму. А также примеры, где переноса цвета недостаточно, например, нужно обязательно повторить изображение в виде круга, и не менять его форму. У таких картинок, пространственное расположение объектов тоже является частью стиля, и его тоже нужно переносить.

🤗HF demo
🔥Project Page
💻Github
📜Paper

@gentech_lab

BY Gentech Lab






Share with your friend now:
group-telegram.com/gentech_lab/68

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

And indeed, volatility has been a hallmark of the market environment so far in 2022, with the S&P 500 still down more than 10% for the year-to-date after first sliding into a correction last month. The CBOE Volatility Index, or VIX, has held at a lofty level of more than 30. Friday’s performance was part of a larger shift. For the week, the Dow, S&P 500 and Nasdaq fell 2%, 2.9%, and 3.5%, respectively. At its heart, Telegram is little more than a messaging app like WhatsApp or Signal. But it also offers open channels that enable a single user, or a group of users, to communicate with large numbers in a method similar to a Twitter account. This has proven to be both a blessing and a curse for Telegram and its users, since these channels can be used for both good and ill. Right now, as Wired reports, the app is a key way for Ukrainians to receive updates from the government during the invasion. But Telegram says people want to keep their chat history when they get a new phone, and they like having a data backup that will sync their chats across multiple devices. And that is why they let people choose whether they want their messages to be encrypted or not. When not turned on, though, chats are stored on Telegram's services, which are scattered throughout the world. But it has "disclosed 0 bytes of user data to third parties, including governments," Telegram states on its website. Anastasia Vlasova/Getty Images
from us


Telegram Gentech Lab
FROM American