Telegram Group & Telegram Channel
ZipLoRA: Any Subject in Any Style by Effectively Merging LoRAs #paper

Статья от Google (ноябрь 2023), генерация картинок с заданными объектами в заданном стиле. На архитектуре SD XL. Используется механизм LoRA, добавляя лора-слои к каждому attention блоку исходной архитектуры. Причем в инференсе используются одновременно 2 обученных матрицы - одна для объекта, другая - для стиля. Используется тот факт, что после дообучения - матрицы LoRA являются сильно разреженными (можно без ущерба для качества - выбросить до 90% околонулевых коэффициентов).

Вводится дополнительный этап обучения, когда 2 заранее обученных матрицы встраиваются друг в друга так, чтобы не затирать значимые коэффициенты друг друга. Для этого строится специальный loss: а) первые две части лосса заставляют результирующую матрицу предсказывать стиль как можно ближе к матрице стиля, а объект - как можно ближе к матрице объекта. b) третья часть - уменьшает косинусную близость соединяемых матриц.

Технически, LoRA матрицы объекта и стиля абсолютно одинаковы. Разница только в промптах для их обучения и слияния. Матрицы объекта учатся на промптах по типу "A <c> <class>", например "A <v12> dog". А матрицы стиля - на промпт "A picture in <s> style". И на таких же промптах - учится их слияние.

Декларируется, что для выучивания стиля достаточно одной референсной картинки.

💻Github
📜Paper

@gentech_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/gentech_lab/26
Create:
Last Update:

ZipLoRA: Any Subject in Any Style by Effectively Merging LoRAs #paper

Статья от Google (ноябрь 2023), генерация картинок с заданными объектами в заданном стиле. На архитектуре SD XL. Используется механизм LoRA, добавляя лора-слои к каждому attention блоку исходной архитектуры. Причем в инференсе используются одновременно 2 обученных матрицы - одна для объекта, другая - для стиля. Используется тот факт, что после дообучения - матрицы LoRA являются сильно разреженными (можно без ущерба для качества - выбросить до 90% околонулевых коэффициентов).

Вводится дополнительный этап обучения, когда 2 заранее обученных матрицы встраиваются друг в друга так, чтобы не затирать значимые коэффициенты друг друга. Для этого строится специальный loss: а) первые две части лосса заставляют результирующую матрицу предсказывать стиль как можно ближе к матрице стиля, а объект - как можно ближе к матрице объекта. b) третья часть - уменьшает косинусную близость соединяемых матриц.

Технически, LoRA матрицы объекта и стиля абсолютно одинаковы. Разница только в промптах для их обучения и слияния. Матрицы объекта учатся на промптах по типу "A <c> <class>", например "A <v12> dog". А матрицы стиля - на промпт "A picture in <s> style". И на таких же промптах - учится их слияние.

Декларируется, что для выучивания стиля достаточно одной референсной картинки.

💻Github
📜Paper

@gentech_lab

BY Gentech Lab






Share with your friend now:
group-telegram.com/gentech_lab/26

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

But because group chats and the channel features are not end-to-end encrypted, Galperin said user privacy is potentially under threat. Andrey, a Russian entrepreneur living in Brazil who, fearing retaliation, asked that NPR not use his last name, said Telegram has become one of the few places Russians can access independent news about the war. "The result is on this photo: fiery 'greetings' to the invaders," the Security Service of Ukraine wrote alongside a photo showing several military vehicles among plumes of black smoke. Despite Telegram's origins, its approach to users' security has privacy advocates worried.
from sa


Telegram Gentech Lab
FROM American