Telegram Group & Telegram Channel
DreamStyler: Paint by Style Inversion with Text-to-Image Diffusion Models #style_transfer #paper

Не очень новая (декабрь 2023) статья от Harvard University, про стилизацию картинок в задачах text-2-image и image-2-image.

В подходе используется Textual Inversion механизм, где обучаются эмбединги токена, обозначающего стиль. Код в репозитории сделан на модели Stable Diffusion v1.5, но его можно будет переписать на более новые версии. Возможно совмещение с любыми подходящими ControlNet, например, с картой глубины.

Особенность подхода в том, что одновременно учится несколько экземпляров обучаемого токена. Обучение происходит в 2 этапа. Сначала учится один экземпляр обучаемого токена. Для этого составляется специальный текстовый промпт "Painting in <S*> style", включающий в себя обучаемый токен <S*> и описание картинки стиля, полученное через BLIP-2. На втором этапе весь процесс денойзинга (обычно 50 шагов) разделяется на несколько стадий (оптимальное число 6). На каждой стадии учится отдельный экземпляр обучаемого токена. За счет этого достигается более точное обуславливание в процессе денойзинга.

В работе проведены интересные эксперименты по подаче эмбедингов от совсем разных картинок стиля на разных стадиях генерации одной картинки. Например, на рисунке показано, что если стилизовать один текстовый запрос одновременно тремя картинками, и на каждом шаге денойзинга одновременно обуславливать на все три картинки, то результат получается смазанным и невыразительным. А если разделить это по стадиям, и подавать одну картинку в начале процесса, другую в середине, и третью в конце, то от начальных картинок будут перенесены общая структура и крупные детали, а от конечных стадий — мелкие детали, которые прорисованы более тонко.

Дополнительно дается объяснение того, как влияет на генерацию параметр guidance_scale, в зависимости от того, насколько тонкими/грубыми являются детали стиля. Если стиль определяется крупно-масштабными деталями, то они будут перенесены практически при любых значениях guidance_scale. А если стиль заключен в очень тонких деталях маленького размера, то качество переноса стиля будет улучшаться с увеличением guidance_scale .

🔥 Project Page
💻 Github
📜 Paper

@gentech_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/gentech_lab/87
Create:
Last Update:

DreamStyler: Paint by Style Inversion with Text-to-Image Diffusion Models #style_transfer #paper

Не очень новая (декабрь 2023) статья от Harvard University, про стилизацию картинок в задачах text-2-image и image-2-image.

В подходе используется Textual Inversion механизм, где обучаются эмбединги токена, обозначающего стиль. Код в репозитории сделан на модели Stable Diffusion v1.5, но его можно будет переписать на более новые версии. Возможно совмещение с любыми подходящими ControlNet, например, с картой глубины.

Особенность подхода в том, что одновременно учится несколько экземпляров обучаемого токена. Обучение происходит в 2 этапа. Сначала учится один экземпляр обучаемого токена. Для этого составляется специальный текстовый промпт "Painting in <S*> style", включающий в себя обучаемый токен <S*> и описание картинки стиля, полученное через BLIP-2. На втором этапе весь процесс денойзинга (обычно 50 шагов) разделяется на несколько стадий (оптимальное число 6). На каждой стадии учится отдельный экземпляр обучаемого токена. За счет этого достигается более точное обуславливание в процессе денойзинга.

В работе проведены интересные эксперименты по подаче эмбедингов от совсем разных картинок стиля на разных стадиях генерации одной картинки. Например, на рисунке показано, что если стилизовать один текстовый запрос одновременно тремя картинками, и на каждом шаге денойзинга одновременно обуславливать на все три картинки, то результат получается смазанным и невыразительным. А если разделить это по стадиям, и подавать одну картинку в начале процесса, другую в середине, и третью в конце, то от начальных картинок будут перенесены общая структура и крупные детали, а от конечных стадий — мелкие детали, которые прорисованы более тонко.

Дополнительно дается объяснение того, как влияет на генерацию параметр guidance_scale, в зависимости от того, насколько тонкими/грубыми являются детали стиля. Если стиль определяется крупно-масштабными деталями, то они будут перенесены практически при любых значениях guidance_scale. А если стиль заключен в очень тонких деталях маленького размера, то качество переноса стиля будет улучшаться с увеличением guidance_scale .

🔥 Project Page
💻 Github
📜 Paper

@gentech_lab

BY Gentech Lab







Share with your friend now:
group-telegram.com/gentech_lab/87

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

For example, WhatsApp restricted the number of times a user could forward something, and developed automated systems that detect and flag objectionable content. The perpetrators use various names to carry out the investment scams. They may also impersonate or clone licensed capital market intermediaries by using the names, logos, credentials, websites and other details of the legitimate entities to promote the illegal schemes. Right now the digital security needs of Russians and Ukrainians are very different, and they lead to very different caveats about how to mitigate the risks associated with using Telegram. For Ukrainians in Ukraine, whose physical safety is at risk because they are in a war zone, digital security is probably not their highest priority. They may value access to news and communication with their loved ones over making sure that all of their communications are encrypted in such a manner that they are indecipherable to Telegram, its employees, or governments with court orders. Telegram does offer end-to-end encrypted communications through Secret Chats, but this is not the default setting. Standard conversations use the MTProto method, enabling server-client encryption but with them stored on the server for ease-of-access. This makes using Telegram across multiple devices simple, but also means that the regular Telegram chats you’re having with folks are not as secure as you may believe. At this point, however, Durov had already been working on Telegram with his brother, and further planned a mobile-first social network with an explicit focus on anti-censorship. Later in April, he told TechCrunch that he had left Russia and had “no plans to go back,” saying that the nation was currently “incompatible with internet business at the moment.” He added later that he was looking for a country that matched his libertarian ideals to base his next startup.
from de


Telegram Gentech Lab
FROM American