Telegram Group & Telegram Channel
InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation #style_transfer #paper

Статья (апрель 2024) про стилизацию картинок в задачах text-to-image и image-to-image. Первая статья в целой серии статей (InstantStyle, InstantStyle-Plus, CSGO) от этих же авторов. Используется подход B-LoRA, IP-adapter, и CLIP-эмбединги.

На вход принимается картинка стиля (образец), текстовый запрос (что хотим сгенерировать), и (опционально) исходная картинка объекта, который будем менять. На выход выдается сгенерированная картинка, соответствующая стилю, текстовому запросу и исходному объекту.

Cистема построена на основе SDXL, пайплайн довольно стандартный — через cross-attention происходит обуславливание на текст, на картинку стиля и на картинку объекта.

Интересные моменты:
1) Для обусловливания на стиль используются векторные операции в пространстве эмбедингов: берется CLIP-эмбединг картинки стиля, из него вычитается CLIP-эмбединг текстового описания той же самой картинки, в результате такого вычитания остается эмбединг, который описывает визуальную составляющую стиля.
2) Cross-attention от стиля накладывается не на все блоки U-net, а на два конкретных блока, один из которых отвечает за цветовой стиль, другой — за расположение объектов на картинке. Приводятся примеры картинок, где для переноса стиля достаточно скопировать цветовую гамму. А также примеры, где переноса цвета недостаточно, например, нужно обязательно повторить изображение в виде круга, и не менять его форму. У таких картинок, пространственное расположение объектов тоже является частью стиля, и его тоже нужно переносить.

🤗HF demo
🔥Project Page
💻Github
📜Paper

@gentech_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/gentech_lab/68
Create:
Last Update:

InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation #style_transfer #paper

Статья (апрель 2024) про стилизацию картинок в задачах text-to-image и image-to-image. Первая статья в целой серии статей (InstantStyle, InstantStyle-Plus, CSGO) от этих же авторов. Используется подход B-LoRA, IP-adapter, и CLIP-эмбединги.

На вход принимается картинка стиля (образец), текстовый запрос (что хотим сгенерировать), и (опционально) исходная картинка объекта, который будем менять. На выход выдается сгенерированная картинка, соответствующая стилю, текстовому запросу и исходному объекту.

Cистема построена на основе SDXL, пайплайн довольно стандартный — через cross-attention происходит обуславливание на текст, на картинку стиля и на картинку объекта.

Интересные моменты:
1) Для обусловливания на стиль используются векторные операции в пространстве эмбедингов: берется CLIP-эмбединг картинки стиля, из него вычитается CLIP-эмбединг текстового описания той же самой картинки, в результате такого вычитания остается эмбединг, который описывает визуальную составляющую стиля.
2) Cross-attention от стиля накладывается не на все блоки U-net, а на два конкретных блока, один из которых отвечает за цветовой стиль, другой — за расположение объектов на картинке. Приводятся примеры картинок, где для переноса стиля достаточно скопировать цветовую гамму. А также примеры, где переноса цвета недостаточно, например, нужно обязательно повторить изображение в виде круга, и не менять его форму. У таких картинок, пространственное расположение объектов тоже является частью стиля, и его тоже нужно переносить.

🤗HF demo
🔥Project Page
💻Github
📜Paper

@gentech_lab

BY Gentech Lab






Share with your friend now:
group-telegram.com/gentech_lab/68

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Perpetrators of such fraud use various marketing techniques to attract subscribers on their social media channels. On February 27th, Durov posted that Channels were becoming a source of unverified information and that the company lacks the ability to check on their veracity. He urged users to be mistrustful of the things shared on Channels, and initially threatened to block the feature in the countries involved for the length of the war, saying that he didn’t want Telegram to be used to aggravate conflict or incite ethnic hatred. He did, however, walk back this plan when it became clear that they had also become a vital communications tool for Ukrainian officials and citizens to help coordinate their resistance and evacuations. The regulator said it had received information that messages containing stock tips and other investment advice with respect to selected listed companies are being widely circulated through websites and social media platforms such as Telegram, Facebook, WhatsApp and Instagram. Following this, Sebi, in an order passed in January 2022, established that the administrators of a Telegram channel having a large subscriber base enticed the subscribers to act upon recommendations that were circulated by those administrators on the channel, leading to significant price and volume impact in various scrips. Telegram has gained a reputation as the “secure” communications app in the post-Soviet states, but whenever you make choices about your digital security, it’s important to start by asking yourself, “What exactly am I securing? And who am I securing it from?” These questions should inform your decisions about whether you are using the right tool or platform for your digital security needs. Telegram is certainly not the most secure messaging app on the market right now. Its security model requires users to place a great deal of trust in Telegram’s ability to protect user data. For some users, this may be good enough for now. For others, it may be wiser to move to a different platform for certain kinds of high-risk communications.
from sa


Telegram Gentech Lab
FROM American