Telegram Group & Telegram Channel
PuLID: Pure and Lightning ID Customization via Contrastive Alignment #face_id #paper

Статья 2024 года. Решается задача ID customization или перевод облика персонажа из одного стилевого домена в другой с сохранением его Identity. К Identity будем относить узнаваемость лица, прическу и цвет кожи.

Метод базируется на двух архитектурах: SDXL и SDXL-Lightning (метод быстрой генерации за 4 шага). Последняя применяется во время инференса и в качестве Lightning T2I training branch. Внутри этой части архитектуры авторы предлагают строить contrastive пары лиц w/o ID и w/ ID c общим, заданным через prompt, доменом стиля. За счет шеринга весов и контрастного обучения авторам получается добиться минимизации влияния ID эмбеддингов на семантику остальной картинки. В качестве ID Encoder-а авторы предлагают использовать face recognition model и EVA-CLIP, эмбеддинги от которых проходят через MLP слои и суммируются в общий вектор.

Обучение происходит в три стадии: 1) На первой происходит стандартное text-to-image (T2I) обучение. 2) На второй к диффузионному лоссу добавляется accurate L_id лосс. Считаем его между выходами Lightning T2I training branch w/o ID и w/ ID. Тут важно, что Identity мы считаем уже в расшумленном пространстве изображений (в предыдущих подходах face-id сеть накладывалась на промежуточных шагах с большим количеством шума). 3) Наконец, на третьей стадии добавляется semantic alignment и layout alignment loss-ы, отвечающие за сохранение информации в финальной генерации, которая не должна меняться во время ID инъекции.

💻Github
📜Paper

@gentech_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/gentech_lab/29
Create:
Last Update:

PuLID: Pure and Lightning ID Customization via Contrastive Alignment #face_id #paper

Статья 2024 года. Решается задача ID customization или перевод облика персонажа из одного стилевого домена в другой с сохранением его Identity. К Identity будем относить узнаваемость лица, прическу и цвет кожи.

Метод базируется на двух архитектурах: SDXL и SDXL-Lightning (метод быстрой генерации за 4 шага). Последняя применяется во время инференса и в качестве Lightning T2I training branch. Внутри этой части архитектуры авторы предлагают строить contrastive пары лиц w/o ID и w/ ID c общим, заданным через prompt, доменом стиля. За счет шеринга весов и контрастного обучения авторам получается добиться минимизации влияния ID эмбеддингов на семантику остальной картинки. В качестве ID Encoder-а авторы предлагают использовать face recognition model и EVA-CLIP, эмбеддинги от которых проходят через MLP слои и суммируются в общий вектор.

Обучение происходит в три стадии: 1) На первой происходит стандартное text-to-image (T2I) обучение. 2) На второй к диффузионному лоссу добавляется accurate L_id лосс. Считаем его между выходами Lightning T2I training branch w/o ID и w/ ID. Тут важно, что Identity мы считаем уже в расшумленном пространстве изображений (в предыдущих подходах face-id сеть накладывалась на промежуточных шагах с большим количеством шума). 3) Наконец, на третьей стадии добавляется semantic alignment и layout alignment loss-ы, отвечающие за сохранение информации в финальной генерации, которая не должна меняться во время ID инъекции.

💻Github
📜Paper

@gentech_lab

BY Gentech Lab






Share with your friend now:
group-telegram.com/gentech_lab/29

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"We as Ukrainians believe that the truth is on our side, whether it's truth that you're proclaiming about the war and everything else, why would you want to hide it?," he said. At its heart, Telegram is little more than a messaging app like WhatsApp or Signal. But it also offers open channels that enable a single user, or a group of users, to communicate with large numbers in a method similar to a Twitter account. This has proven to be both a blessing and a curse for Telegram and its users, since these channels can be used for both good and ill. Right now, as Wired reports, the app is a key way for Ukrainians to receive updates from the government during the invasion. Oh no. There’s a certain degree of myth-making around what exactly went on, so take everything that follows lightly. Telegram was originally launched as a side project by the Durov brothers, with Nikolai handling the coding and Pavel as CEO, while both were at VK. Either way, Durov says that he withdrew his resignation but that he was ousted from his company anyway. Subsequently, control of the company was reportedly handed to oligarchs Alisher Usmanov and Igor Sechin, both allegedly close associates of Russian leader Vladimir Putin. Just days after Russia invaded Ukraine, Durov wrote that Telegram was "increasingly becoming a source of unverified information," and he worried about the app being used to "incite ethnic hatred."
from ar


Telegram Gentech Lab
FROM American