Telegram Group & Telegram Channel
DEADiff: An Efficient Stylization Diffusion Model with Disentangled Representations #style_transfer #paper

Статья (март 2024) про стилизацию картинок в задачах text-2-image и image-2-image.
Основано на модели Stable Diffusion v1.5, работает в режиме инференса, обучение не требуется.

Используется дополнительный адаптер (Q-former), который принимает на вход CLIP-эмбединг исходной картинки, обучаемый массив токенов, и текст "Style"/"Content" (в зависимости от задачи). Полученные эмбединги направляются (через cross-attention) в разные блоки U-net (контент — в узкую часть, стиль — в части с высоким разрешением).

Для обучения использовался закрытый датасет (сгенерированный через Midjourney на специально подготовленных текстовых промптах). Q-former обучается в нескольких режимах: "только стиль", "только контент", и специальный режим реконструкции исходной картинки, когда она же сама подается и в качестве стиля, и в качестве объекта.

Сделана дополнительная оптимизация вычислений: 2 отдельных слоя cross-attention объединены в один слой, который обрабатывает за один проход сконкатенированные эмбединги картинки и текста.

Возможна комбинация с любыми вариантами ControlNet (для версии SD v1.5), например, с картами глубины, Возможно смешивание разных стилей путем простого сложения их эмбедингов.

🤗HF
🔥Project Page
💻Github
📜Paper

@gentech_lab
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/gentech_lab/86
Create:
Last Update:

DEADiff: An Efficient Stylization Diffusion Model with Disentangled Representations #style_transfer #paper

Статья (март 2024) про стилизацию картинок в задачах text-2-image и image-2-image.
Основано на модели Stable Diffusion v1.5, работает в режиме инференса, обучение не требуется.

Используется дополнительный адаптер (Q-former), который принимает на вход CLIP-эмбединг исходной картинки, обучаемый массив токенов, и текст "Style"/"Content" (в зависимости от задачи). Полученные эмбединги направляются (через cross-attention) в разные блоки U-net (контент — в узкую часть, стиль — в части с высоким разрешением).

Для обучения использовался закрытый датасет (сгенерированный через Midjourney на специально подготовленных текстовых промптах). Q-former обучается в нескольких режимах: "только стиль", "только контент", и специальный режим реконструкции исходной картинки, когда она же сама подается и в качестве стиля, и в качестве объекта.

Сделана дополнительная оптимизация вычислений: 2 отдельных слоя cross-attention объединены в один слой, который обрабатывает за один проход сконкатенированные эмбединги картинки и текста.

Возможна комбинация с любыми вариантами ControlNet (для версии SD v1.5), например, с картами глубины, Возможно смешивание разных стилей путем простого сложения их эмбедингов.

🤗HF
🔥Project Page
💻Github
📜Paper

@gentech_lab

BY Gentech Lab






Share with your friend now:
group-telegram.com/gentech_lab/86

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In a message on his Telegram channel recently recounting the episode, Durov wrote: "I lost my company and my home, but would do it again – without hesitation." 'Wild West' The regulator took order for the search and seizure operation from Judge Purushottam B Jadhav, Sebi Special Judge / Additional Sessions Judge. As such, the SC would like to remind investors to always exercise caution when evaluating investment opportunities, especially those promising unrealistically high returns with little or no risk. Investors should also never deposit money into someone’s personal bank account if instructed. Pavel Durov, Telegram's CEO, is known as "the Russian Mark Zuckerberg," for co-founding VKontakte, which is Russian for "in touch," a Facebook imitator that became the country's most popular social networking site.
from nl


Telegram Gentech Lab
FROM American