Telegram Group & Telegram Channel
This media is not supported in your browser
VIEW IN TELEGRAM
One-Prompt-One-Story: SVD и длинный промпт для генерации связанных изображений

Чтобы сгенерировать при помощи диффузии набор связанных консистентных изображений с единым персонажем, существует много методов, основанных на обучении (DreamBooth, IP-Adapter, Textual Inversion и т. п.). Но на самом деле можно обойтись и без обучения — например, StoryDiffusion делает это через расширение attention на референсную картинку.

В новой статье описывают ещё более простой метод генерации таких «историй» с единым героем — «One-Prompt-One-Story». Оказалось, что достаточно взять один длинный промпт с описанием каждого кадра и аккуратно, по очереди «выключать» нерелевантные части, сохраняя random seed. Для этого авторы используют SVD на текстовых эмбеддингах: усиливают нужные токены и ослабляют все лишние. Плюс небольшой трюк с cross-attention, чтобы персонаж не «расползался». Всё делается на лету, без дообучения и без референсных снимков.

Несмотря на простоту, метод по метрикам сильно обходит StoryDiffusion, и даже иногда обходит IP-adapter.

Статья, GitHub



group-telegram.com/abstractDL/316
Create:
Last Update:

One-Prompt-One-Story: SVD и длинный промпт для генерации связанных изображений

Чтобы сгенерировать при помощи диффузии набор связанных консистентных изображений с единым персонажем, существует много методов, основанных на обучении (DreamBooth, IP-Adapter, Textual Inversion и т. п.). Но на самом деле можно обойтись и без обучения — например, StoryDiffusion делает это через расширение attention на референсную картинку.

В новой статье описывают ещё более простой метод генерации таких «историй» с единым героем — «One-Prompt-One-Story». Оказалось, что достаточно взять один длинный промпт с описанием каждого кадра и аккуратно, по очереди «выключать» нерелевантные части, сохраняя random seed. Для этого авторы используют SVD на текстовых эмбеддингах: усиливают нужные токены и ослабляют все лишние. Плюс небольшой трюк с cross-attention, чтобы персонаж не «расползался». Всё делается на лету, без дообучения и без референсных снимков.

Несмотря на простоту, метод по метрикам сильно обходит StoryDiffusion, и даже иногда обходит IP-adapter.

Статья, GitHub

BY AbstractDL


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/abstractDL/316

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

These administrators had built substantial positions in these scrips prior to the circulation of recommendations and offloaded their positions subsequent to rise in price of these scrips, making significant profits at the expense of unsuspecting investors, Sebi noted. Although some channels have been removed, the curation process is considered opaque and insufficient by analysts. For tech stocks, “the main thing is yields,” Essaye said. Messages are not fully encrypted by default. That means the company could, in theory, access the content of the messages, or be forced to hand over the data at the request of a government. Either way, Durov says that he withdrew his resignation but that he was ousted from his company anyway. Subsequently, control of the company was reportedly handed to oligarchs Alisher Usmanov and Igor Sechin, both allegedly close associates of Russian leader Vladimir Putin.
from tw


Telegram AbstractDL
FROM American