Telegram Group & Telegram Channel
DreamStyler: Paint by Style Inversion with Text-to-Image Diffusion Models #style_transfer #paper

Не очень новая (декабрь 2023) статья от Harvard University, про стилизацию картинок в задачах text-2-image и image-2-image.

В подходе используется Textual Inversion механизм, где обучаются эмбединги токена, обозначающего стиль. Код в репозитории сделан на модели Stable Diffusion v1.5, но его можно будет переписать на более новые версии. Возможно совмещение с любыми подходящими ControlNet, например, с картой глубины.

Особенность подхода в том, что одновременно учится несколько экземпляров обучаемого токена. Обучение происходит в 2 этапа. Сначала учится один экземпляр обучаемого токена. Для этого составляется специальный текстовый промпт "Painting in <S*> style", включающий в себя обучаемый токен <S*> и описание картинки стиля, полученное через BLIP-2. На втором этапе весь процесс денойзинга (обычно 50 шагов) разделяется на несколько стадий (оптимальное число 6). На каждой стадии учится отдельный экземпляр обучаемого токена. За счет этого достигается более точное обуславливание в процессе денойзинга.

В работе проведены интересные эксперименты по подаче эмбедингов от совсем разных картинок стиля на разных стадиях генерации одной картинки. Например, на рисунке показано, что если стилизовать один текстовый запрос одновременно тремя картинками, и на каждом шаге денойзинга одновременно обуславливать на все три картинки, то результат получается смазанным и невыразительным. А если разделить это по стадиям, и подавать одну картинку в начале процесса, другую в середине, и третью в конце, то от начальных картинок будут перенесены общая структура и крупные детали, а от конечных стадий — мелкие детали, которые прорисованы более тонко.

Дополнительно дается объяснение того, как влияет на генерацию параметр guidance_scale, в зависимости от того, насколько тонкими/грубыми являются детали стиля. Если стиль определяется крупно-масштабными деталями, то они будут перенесены практически при любых значениях guidance_scale. А если стиль заключен в очень тонких деталях маленького размера, то качество переноса стиля будет улучшаться с увеличением guidance_scale .

🔥 Project Page
💻 Github
📜 Paper

@gentech_lab
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/gentech_lab/90
Create:
Last Update:

DreamStyler: Paint by Style Inversion with Text-to-Image Diffusion Models #style_transfer #paper

Не очень новая (декабрь 2023) статья от Harvard University, про стилизацию картинок в задачах text-2-image и image-2-image.

В подходе используется Textual Inversion механизм, где обучаются эмбединги токена, обозначающего стиль. Код в репозитории сделан на модели Stable Diffusion v1.5, но его можно будет переписать на более новые версии. Возможно совмещение с любыми подходящими ControlNet, например, с картой глубины.

Особенность подхода в том, что одновременно учится несколько экземпляров обучаемого токена. Обучение происходит в 2 этапа. Сначала учится один экземпляр обучаемого токена. Для этого составляется специальный текстовый промпт "Painting in <S*> style", включающий в себя обучаемый токен <S*> и описание картинки стиля, полученное через BLIP-2. На втором этапе весь процесс денойзинга (обычно 50 шагов) разделяется на несколько стадий (оптимальное число 6). На каждой стадии учится отдельный экземпляр обучаемого токена. За счет этого достигается более точное обуславливание в процессе денойзинга.

В работе проведены интересные эксперименты по подаче эмбедингов от совсем разных картинок стиля на разных стадиях генерации одной картинки. Например, на рисунке показано, что если стилизовать один текстовый запрос одновременно тремя картинками, и на каждом шаге денойзинга одновременно обуславливать на все три картинки, то результат получается смазанным и невыразительным. А если разделить это по стадиям, и подавать одну картинку в начале процесса, другую в середине, и третью в конце, то от начальных картинок будут перенесены общая структура и крупные детали, а от конечных стадий — мелкие детали, которые прорисованы более тонко.

Дополнительно дается объяснение того, как влияет на генерацию параметр guidance_scale, в зависимости от того, насколько тонкими/грубыми являются детали стиля. Если стиль определяется крупно-масштабными деталями, то они будут перенесены практически при любых значениях guidance_scale. А если стиль заключен в очень тонких деталях маленького размера, то качество переноса стиля будет улучшаться с увеличением guidance_scale .

🔥 Project Page
💻 Github
📜 Paper

@gentech_lab

BY Gentech Lab







Share with your friend now:
group-telegram.com/gentech_lab/90

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

There was another possible development: Reuters also reported that Ukraine said that Belarus could soon join the invasion of Ukraine. However, the AFP, citing a Pentagon official, said the U.S. hasn’t yet seen evidence that Belarusian troops are in Ukraine. "The result is on this photo: fiery 'greetings' to the invaders," the Security Service of Ukraine wrote alongside a photo showing several military vehicles among plumes of black smoke. In 2018, Russia banned Telegram although it reversed the prohibition two years later. Anastasia Vlasova/Getty Images Sebi said data, emails and other documents are being retrieved from the seized devices and detailed investigation is in progress.
from ye


Telegram Gentech Lab
FROM American