Telegram Group & Telegram Channel
DreamStyler: Paint by Style Inversion with Text-to-Image Diffusion Models #style_transfer #paper

Не очень новая (декабрь 2023) статья от Harvard University, про стилизацию картинок в задачах text-2-image и image-2-image.

В подходе используется Textual Inversion механизм, где обучаются эмбединги токена, обозначающего стиль. Код в репозитории сделан на модели Stable Diffusion v1.5, но его можно будет переписать на более новые версии. Возможно совмещение с любыми подходящими ControlNet, например, с картой глубины.

Особенность подхода в том, что одновременно учится несколько экземпляров обучаемого токена. Обучение происходит в 2 этапа. Сначала учится один экземпляр обучаемого токена. Для этого составляется специальный текстовый промпт "Painting in <S*> style", включающий в себя обучаемый токен <S*> и описание картинки стиля, полученное через BLIP-2. На втором этапе весь процесс денойзинга (обычно 50 шагов) разделяется на несколько стадий (оптимальное число 6). На каждой стадии учится отдельный экземпляр обучаемого токена. За счет этого достигается более точное обуславливание в процессе денойзинга.

В работе проведены интересные эксперименты по подаче эмбедингов от совсем разных картинок стиля на разных стадиях генерации одной картинки. Например, на рисунке показано, что если стилизовать один текстовый запрос одновременно тремя картинками, и на каждом шаге денойзинга одновременно обуславливать на все три картинки, то результат получается смазанным и невыразительным. А если разделить это по стадиям, и подавать одну картинку в начале процесса, другую в середине, и третью в конце, то от начальных картинок будут перенесены общая структура и крупные детали, а от конечных стадий — мелкие детали, которые прорисованы более тонко.

Дополнительно дается объяснение того, как влияет на генерацию параметр guidance_scale, в зависимости от того, насколько тонкими/грубыми являются детали стиля. Если стиль определяется крупно-масштабными деталями, то они будут перенесены практически при любых значениях guidance_scale. А если стиль заключен в очень тонких деталях маленького размера, то качество переноса стиля будет улучшаться с увеличением guidance_scale .

🔥 Project Page
💻 Github
📜 Paper

@gentech_lab
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/gentech_lab/90
Create:
Last Update:

DreamStyler: Paint by Style Inversion with Text-to-Image Diffusion Models #style_transfer #paper

Не очень новая (декабрь 2023) статья от Harvard University, про стилизацию картинок в задачах text-2-image и image-2-image.

В подходе используется Textual Inversion механизм, где обучаются эмбединги токена, обозначающего стиль. Код в репозитории сделан на модели Stable Diffusion v1.5, но его можно будет переписать на более новые версии. Возможно совмещение с любыми подходящими ControlNet, например, с картой глубины.

Особенность подхода в том, что одновременно учится несколько экземпляров обучаемого токена. Обучение происходит в 2 этапа. Сначала учится один экземпляр обучаемого токена. Для этого составляется специальный текстовый промпт "Painting in <S*> style", включающий в себя обучаемый токен <S*> и описание картинки стиля, полученное через BLIP-2. На втором этапе весь процесс денойзинга (обычно 50 шагов) разделяется на несколько стадий (оптимальное число 6). На каждой стадии учится отдельный экземпляр обучаемого токена. За счет этого достигается более точное обуславливание в процессе денойзинга.

В работе проведены интересные эксперименты по подаче эмбедингов от совсем разных картинок стиля на разных стадиях генерации одной картинки. Например, на рисунке показано, что если стилизовать один текстовый запрос одновременно тремя картинками, и на каждом шаге денойзинга одновременно обуславливать на все три картинки, то результат получается смазанным и невыразительным. А если разделить это по стадиям, и подавать одну картинку в начале процесса, другую в середине, и третью в конце, то от начальных картинок будут перенесены общая структура и крупные детали, а от конечных стадий — мелкие детали, которые прорисованы более тонко.

Дополнительно дается объяснение того, как влияет на генерацию параметр guidance_scale, в зависимости от того, насколько тонкими/грубыми являются детали стиля. Если стиль определяется крупно-масштабными деталями, то они будут перенесены практически при любых значениях guidance_scale. А если стиль заключен в очень тонких деталях маленького размера, то качество переноса стиля будет улучшаться с увеличением guidance_scale .

🔥 Project Page
💻 Github
📜 Paper

@gentech_lab

BY Gentech Lab







Share with your friend now:
group-telegram.com/gentech_lab/90

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Some privacy experts say Telegram is not secure enough But Kliuchnikov, the Ukranian now in France, said he will use Signal or WhatsApp for sensitive conversations, but questions around privacy on Telegram do not give him pause when it comes to sharing information about the war. "Like the bombing of the maternity ward in Mariupol," he said, "Even before it hits the news, you see the videos on the Telegram channels." In a statement, the regulator said the search and seizure operation was carried out against seven individuals and one corporate entity at multiple locations in Ahmedabad and Bhavnagar in Gujarat, Neemuch in Madhya Pradesh, Delhi, and Mumbai. Despite Telegram's origins, its approach to users' security has privacy advocates worried.
from ca


Telegram Gentech Lab
FROM American