Telegram Group & Telegram Channel
InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation #style_transfer #paper

Статья (апрель 2024) про стилизацию картинок в задачах text-to-image и image-to-image. Первая статья в целой серии статей (InstantStyle, InstantStyle-Plus, CSGO) от этих же авторов. Используется подход B-LoRA, IP-adapter, и CLIP-эмбединги.

На вход принимается картинка стиля (образец), текстовый запрос (что хотим сгенерировать), и (опционально) исходная картинка объекта, который будем менять. На выход выдается сгенерированная картинка, соответствующая стилю, текстовому запросу и исходному объекту.

Cистема построена на основе SDXL, пайплайн довольно стандартный — через cross-attention происходит обуславливание на текст, на картинку стиля и на картинку объекта.

Интересные моменты:
1) Для обусловливания на стиль используются векторные операции в пространстве эмбедингов: берется CLIP-эмбединг картинки стиля, из него вычитается CLIP-эмбединг текстового описания той же самой картинки, в результате такого вычитания остается эмбединг, который описывает визуальную составляющую стиля.
2) Cross-attention от стиля накладывается не на все блоки U-net, а на два конкретных блока, один из которых отвечает за цветовой стиль, другой — за расположение объектов на картинке. Приводятся примеры картинок, где для переноса стиля достаточно скопировать цветовую гамму. А также примеры, где переноса цвета недостаточно, например, нужно обязательно повторить изображение в виде круга, и не менять его форму. У таких картинок, пространственное расположение объектов тоже является частью стиля, и его тоже нужно переносить.

🤗HF demo
🔥Project Page
💻Github
📜Paper

@gentech_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/gentech_lab/68
Create:
Last Update:

InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation #style_transfer #paper

Статья (апрель 2024) про стилизацию картинок в задачах text-to-image и image-to-image. Первая статья в целой серии статей (InstantStyle, InstantStyle-Plus, CSGO) от этих же авторов. Используется подход B-LoRA, IP-adapter, и CLIP-эмбединги.

На вход принимается картинка стиля (образец), текстовый запрос (что хотим сгенерировать), и (опционально) исходная картинка объекта, который будем менять. На выход выдается сгенерированная картинка, соответствующая стилю, текстовому запросу и исходному объекту.

Cистема построена на основе SDXL, пайплайн довольно стандартный — через cross-attention происходит обуславливание на текст, на картинку стиля и на картинку объекта.

Интересные моменты:
1) Для обусловливания на стиль используются векторные операции в пространстве эмбедингов: берется CLIP-эмбединг картинки стиля, из него вычитается CLIP-эмбединг текстового описания той же самой картинки, в результате такого вычитания остается эмбединг, который описывает визуальную составляющую стиля.
2) Cross-attention от стиля накладывается не на все блоки U-net, а на два конкретных блока, один из которых отвечает за цветовой стиль, другой — за расположение объектов на картинке. Приводятся примеры картинок, где для переноса стиля достаточно скопировать цветовую гамму. А также примеры, где переноса цвета недостаточно, например, нужно обязательно повторить изображение в виде круга, и не менять его форму. У таких картинок, пространственное расположение объектов тоже является частью стиля, и его тоже нужно переносить.

🤗HF demo
🔥Project Page
💻Github
📜Paper

@gentech_lab

BY Gentech Lab






Share with your friend now:
group-telegram.com/gentech_lab/68

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Markets continued to grapple with the economic and corporate earnings implications relating to the Russia-Ukraine conflict. “We have a ton of uncertainty right now,” said Stephanie Link, chief investment strategist and portfolio manager at Hightower Advisors. “We’re dealing with a war, we’re dealing with inflation. We don’t know what it means to earnings.” "Someone posing as a Ukrainian citizen just joins the chat and starts spreading misinformation, or gathers data, like the location of shelters," Tsekhanovska said, noting how false messages have urged Ukrainians to turn off their phones at a specific time of night, citing cybersafety. After fleeing Russia, the brothers founded Telegram as a way to communicate outside the Kremlin's orbit. They now run it from Dubai, and Pavel Durov says it has more than 500 million monthly active users. For Oleksandra Tsekhanovska, head of the Hybrid Warfare Analytical Group at the Kyiv-based Ukraine Crisis Media Center, the effects are both near- and far-reaching. One thing that Telegram now offers to all users is the ability to “disappear” messages or set remote deletion deadlines. That enables users to have much more control over how long people can access what you’re sending them. Given that Russian law enforcement officials are reportedly (via Insider) stopping people in the street and demanding to read their text messages, this could be vital to protect individuals from reprisals.
from pl


Telegram Gentech Lab
FROM American