Telegram Group & Telegram Channel
DEADiff: An Efficient Stylization Diffusion Model with Disentangled Representations #style_transfer #paper

Статья (март 2024) про стилизацию картинок в задачах text-2-image и image-2-image.
Основано на модели Stable Diffusion v1.5, работает в режиме инференса, обучение не требуется.

Используется дополнительный адаптер (Q-former), который принимает на вход CLIP-эмбединг исходной картинки, обучаемый массив токенов, и текст "Style"/"Content" (в зависимости от задачи). Полученные эмбединги направляются (через cross-attention) в разные блоки U-net (контент — в узкую часть, стиль — в части с высоким разрешением).

Для обучения использовался закрытый датасет (сгенерированный через Midjourney на специально подготовленных текстовых промптах). Q-former обучается в нескольких режимах: "только стиль", "только контент", и специальный режим реконструкции исходной картинки, когда она же сама подается и в качестве стиля, и в качестве объекта.

Сделана дополнительная оптимизация вычислений: 2 отдельных слоя cross-attention объединены в один слой, который обрабатывает за один проход сконкатенированные эмбединги картинки и текста.

Возможна комбинация с любыми вариантами ControlNet (для версии SD v1.5), например, с картами глубины, Возможно смешивание разных стилей путем простого сложения их эмбедингов.

🤗HF
🔥Project Page
💻Github
📜Paper

@gentech_lab
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/gentech_lab/85
Create:
Last Update:

DEADiff: An Efficient Stylization Diffusion Model with Disentangled Representations #style_transfer #paper

Статья (март 2024) про стилизацию картинок в задачах text-2-image и image-2-image.
Основано на модели Stable Diffusion v1.5, работает в режиме инференса, обучение не требуется.

Используется дополнительный адаптер (Q-former), который принимает на вход CLIP-эмбединг исходной картинки, обучаемый массив токенов, и текст "Style"/"Content" (в зависимости от задачи). Полученные эмбединги направляются (через cross-attention) в разные блоки U-net (контент — в узкую часть, стиль — в части с высоким разрешением).

Для обучения использовался закрытый датасет (сгенерированный через Midjourney на специально подготовленных текстовых промптах). Q-former обучается в нескольких режимах: "только стиль", "только контент", и специальный режим реконструкции исходной картинки, когда она же сама подается и в качестве стиля, и в качестве объекта.

Сделана дополнительная оптимизация вычислений: 2 отдельных слоя cross-attention объединены в один слой, который обрабатывает за один проход сконкатенированные эмбединги картинки и текста.

Возможна комбинация с любыми вариантами ControlNet (для версии SD v1.5), например, с картами глубины, Возможно смешивание разных стилей путем простого сложения их эмбедингов.

🤗HF
🔥Project Page
💻Github
📜Paper

@gentech_lab

BY Gentech Lab






Share with your friend now:
group-telegram.com/gentech_lab/85

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In view of this, the regulator has cautioned investors not to rely on such investment tips / advice received through social media platforms. It has also said investors should exercise utmost caution while taking investment decisions while dealing in the securities market. Despite Telegram's origins, its approach to users' security has privacy advocates worried. "There is a significant risk of insider threat or hacking of Telegram systems that could expose all of these chats to the Russian government," said Eva Galperin with the Electronic Frontier Foundation, which has called for Telegram to improve its privacy practices. Lastly, the web previews of t.me links have been given a new look, adding chat backgrounds and design elements from the fully-features Telegram Web client. Either way, Durov says that he withdrew his resignation but that he was ousted from his company anyway. Subsequently, control of the company was reportedly handed to oligarchs Alisher Usmanov and Igor Sechin, both allegedly close associates of Russian leader Vladimir Putin.
from tr


Telegram Gentech Lab
FROM American