Telegram Group & Telegram Channel
ZipLoRA: Any Subject in Any Style by Effectively Merging LoRAs #paper

Статья от Google (ноябрь 2023), генерация картинок с заданными объектами в заданном стиле. На архитектуре SD XL. Используется механизм LoRA, добавляя лора-слои к каждому attention блоку исходной архитектуры. Причем в инференсе используются одновременно 2 обученных матрицы - одна для объекта, другая - для стиля. Используется тот факт, что после дообучения - матрицы LoRA являются сильно разреженными (можно без ущерба для качества - выбросить до 90% околонулевых коэффициентов).

Вводится дополнительный этап обучения, когда 2 заранее обученных матрицы встраиваются друг в друга так, чтобы не затирать значимые коэффициенты друг друга. Для этого строится специальный loss: а) первые две части лосса заставляют результирующую матрицу предсказывать стиль как можно ближе к матрице стиля, а объект - как можно ближе к матрице объекта. b) третья часть - уменьшает косинусную близость соединяемых матриц.

Технически, LoRA матрицы объекта и стиля абсолютно одинаковы. Разница только в промптах для их обучения и слияния. Матрицы объекта учатся на промптах по типу "A <c> <class>", например "A <v12> dog". А матрицы стиля - на промпт "A picture in <s> style". И на таких же промптах - учится их слияние.

Декларируется, что для выучивания стиля достаточно одной референсной картинки.

💻Github
📜Paper

@gentech_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/gentech_lab/26
Create:
Last Update:

ZipLoRA: Any Subject in Any Style by Effectively Merging LoRAs #paper

Статья от Google (ноябрь 2023), генерация картинок с заданными объектами в заданном стиле. На архитектуре SD XL. Используется механизм LoRA, добавляя лора-слои к каждому attention блоку исходной архитектуры. Причем в инференсе используются одновременно 2 обученных матрицы - одна для объекта, другая - для стиля. Используется тот факт, что после дообучения - матрицы LoRA являются сильно разреженными (можно без ущерба для качества - выбросить до 90% околонулевых коэффициентов).

Вводится дополнительный этап обучения, когда 2 заранее обученных матрицы встраиваются друг в друга так, чтобы не затирать значимые коэффициенты друг друга. Для этого строится специальный loss: а) первые две части лосса заставляют результирующую матрицу предсказывать стиль как можно ближе к матрице стиля, а объект - как можно ближе к матрице объекта. b) третья часть - уменьшает косинусную близость соединяемых матриц.

Технически, LoRA матрицы объекта и стиля абсолютно одинаковы. Разница только в промптах для их обучения и слияния. Матрицы объекта учатся на промптах по типу "A <c> <class>", например "A <v12> dog". А матрицы стиля - на промпт "A picture in <s> style". И на таких же промптах - учится их слияние.

Декларируется, что для выучивания стиля достаточно одной референсной картинки.

💻Github
📜Paper

@gentech_lab

BY Gentech Lab






Share with your friend now:
group-telegram.com/gentech_lab/26

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Messages are not fully encrypted by default. That means the company could, in theory, access the content of the messages, or be forced to hand over the data at the request of a government. Also in the latest update is the ability for users to create a unique @username from the Settings page, providing others with an easy way to contact them via Search or their t.me/username link without sharing their phone number. Some privacy experts say Telegram is not secure enough This provided opportunity to their linked entities to offload their shares at higher prices and make significant profits at the cost of unsuspecting retail investors. The regulator took order for the search and seizure operation from Judge Purushottam B Jadhav, Sebi Special Judge / Additional Sessions Judge.
from ye


Telegram Gentech Lab
FROM American