Telegram Group & Telegram Channel
InstantStyle-Plus: Style Transfer with Content-Preserving in Text-to-Image Generation #style_transfer #paper

Статья (июнь 2024) про стилизацию картинок в задачах image-to-image. Вторая статья в серии статей (InstantStyle, InstantStyle-Plus, CSGO) от этих же авторов. На вход принимается картинка стиля (образец) и исходная картинка объекта, который хотим менять. На выход выдается сгенерированная картинка, в которой исходный объект перерисован в другом стиле.

В статье много раз отмечается, что основной фокус сделан на сохранении исходного объекта, чтобы вносить в него как можно меньше искажений при изменении стиля. Cистема построена на основе SDXL, fine-tuning не требуется, вся работа — в режиме инференса.

Обуславливание выполняется одновременно за счет нескольких механизмов:

для контента:
- картинка объекта переводится в латентное пространство и там делается инверсия в зашумленное состояние (используется модель ReNoise). С этого нового начального состояния начинается процесс денойзинга.
- картинка объекта проходит через Tile ControlNet (особый вид ControlNet, изначально предназначен для upscaling, предобучен на больших картинках, составленных из повторяющихся маленьких картинок) и подается на каждом шаге денойзинга через cross-attention.
- картинка объекта проходит через Image Adapter (IP-Adapter) и тоже подается на каждом шаге денойзинга через cross-attention.

для стиля:
- картинка стиля проходит через Style Adapter (IP-Adapter) и подается на каждом шаге денойзинга через cross-attention (в соответствии с рекомендациями InstantStyle — только в один конкретный блок U-net).
- на каждом шаге результат сравнивается с картинкой стиля через CLIP Style Similarity, и эта разность используется в качестве guidance на следующих шагах денойзинга.

🔥Project Page
💻Github
📜Paper

@gentech_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/gentech_lab/72
Create:
Last Update:

InstantStyle-Plus: Style Transfer with Content-Preserving in Text-to-Image Generation #style_transfer #paper

Статья (июнь 2024) про стилизацию картинок в задачах image-to-image. Вторая статья в серии статей (InstantStyle, InstantStyle-Plus, CSGO) от этих же авторов. На вход принимается картинка стиля (образец) и исходная картинка объекта, который хотим менять. На выход выдается сгенерированная картинка, в которой исходный объект перерисован в другом стиле.

В статье много раз отмечается, что основной фокус сделан на сохранении исходного объекта, чтобы вносить в него как можно меньше искажений при изменении стиля. Cистема построена на основе SDXL, fine-tuning не требуется, вся работа — в режиме инференса.

Обуславливание выполняется одновременно за счет нескольких механизмов:

для контента:
- картинка объекта переводится в латентное пространство и там делается инверсия в зашумленное состояние (используется модель ReNoise). С этого нового начального состояния начинается процесс денойзинга.
- картинка объекта проходит через Tile ControlNet (особый вид ControlNet, изначально предназначен для upscaling, предобучен на больших картинках, составленных из повторяющихся маленьких картинок) и подается на каждом шаге денойзинга через cross-attention.
- картинка объекта проходит через Image Adapter (IP-Adapter) и тоже подается на каждом шаге денойзинга через cross-attention.

для стиля:
- картинка стиля проходит через Style Adapter (IP-Adapter) и подается на каждом шаге денойзинга через cross-attention (в соответствии с рекомендациями InstantStyle — только в один конкретный блок U-net).
- на каждом шаге результат сравнивается с картинкой стиля через CLIP Style Similarity, и эта разность используется в качестве guidance на следующих шагах денойзинга.

🔥Project Page
💻Github
📜Paper

@gentech_lab

BY Gentech Lab






Share with your friend now:
group-telegram.com/gentech_lab/72

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

That hurt tech stocks. For the past few weeks, the 10-year yield has traded between 1.72% and 2%, as traders moved into the bond for safety when Russia headlines were ugly—and out of it when headlines improved. Now, the yield is touching its pandemic-era high. If the yield breaks above that level, that could signal that it’s on a sustainable path higher. Higher long-dated bond yields make future profits less valuable—and many tech companies are valued on the basis of profits forecast for many years in the future. 'Wild West' Messages are not fully encrypted by default. That means the company could, in theory, access the content of the messages, or be forced to hand over the data at the request of a government. Ukrainian President Volodymyr Zelensky said in a video message on Tuesday that Ukrainian forces "destroy the invaders wherever we can." To that end, when files are actively downloading, a new icon now appears in the Search bar that users can tap to view and manage downloads, pause and resume all downloads or just individual items, and select one to increase its priority or view it in a chat.
from fr


Telegram Gentech Lab
FROM American