Telegram Group & Telegram Channel
PuLID: Pure and Lightning ID Customization via Contrastive Alignment #face_id #paper

Статья 2024 года. Решается задача ID customization или перевод облика персонажа из одного стилевого домена в другой с сохранением его Identity. К Identity будем относить узнаваемость лица, прическу и цвет кожи.

Метод базируется на двух архитектурах: SDXL и SDXL-Lightning (метод быстрой генерации за 4 шага). Последняя применяется во время инференса и в качестве Lightning T2I training branch. Внутри этой части архитектуры авторы предлагают строить contrastive пары лиц w/o ID и w/ ID c общим, заданным через prompt, доменом стиля. За счет шеринга весов и контрастного обучения авторам получается добиться минимизации влияния ID эмбеддингов на семантику остальной картинки. В качестве ID Encoder-а авторы предлагают использовать face recognition model и EVA-CLIP, эмбеддинги от которых проходят через MLP слои и суммируются в общий вектор.

Обучение происходит в три стадии: 1) На первой происходит стандартное text-to-image (T2I) обучение. 2) На второй к диффузионному лоссу добавляется accurate L_id лосс. Считаем его между выходами Lightning T2I training branch w/o ID и w/ ID. Тут важно, что Identity мы считаем уже в расшумленном пространстве изображений (в предыдущих подходах face-id сеть накладывалась на промежуточных шагах с большим количеством шума). 3) Наконец, на третьей стадии добавляется semantic alignment и layout alignment loss-ы, отвечающие за сохранение информации в финальной генерации, которая не должна меняться во время ID инъекции.

💻Github
📜Paper

@gentech_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/gentech_lab/29
Create:
Last Update:

PuLID: Pure and Lightning ID Customization via Contrastive Alignment #face_id #paper

Статья 2024 года. Решается задача ID customization или перевод облика персонажа из одного стилевого домена в другой с сохранением его Identity. К Identity будем относить узнаваемость лица, прическу и цвет кожи.

Метод базируется на двух архитектурах: SDXL и SDXL-Lightning (метод быстрой генерации за 4 шага). Последняя применяется во время инференса и в качестве Lightning T2I training branch. Внутри этой части архитектуры авторы предлагают строить contrastive пары лиц w/o ID и w/ ID c общим, заданным через prompt, доменом стиля. За счет шеринга весов и контрастного обучения авторам получается добиться минимизации влияния ID эмбеддингов на семантику остальной картинки. В качестве ID Encoder-а авторы предлагают использовать face recognition model и EVA-CLIP, эмбеддинги от которых проходят через MLP слои и суммируются в общий вектор.

Обучение происходит в три стадии: 1) На первой происходит стандартное text-to-image (T2I) обучение. 2) На второй к диффузионному лоссу добавляется accurate L_id лосс. Считаем его между выходами Lightning T2I training branch w/o ID и w/ ID. Тут важно, что Identity мы считаем уже в расшумленном пространстве изображений (в предыдущих подходах face-id сеть накладывалась на промежуточных шагах с большим количеством шума). 3) Наконец, на третьей стадии добавляется semantic alignment и layout alignment loss-ы, отвечающие за сохранение информации в финальной генерации, которая не должна меняться во время ID инъекции.

💻Github
📜Paper

@gentech_lab

BY Gentech Lab






Share with your friend now:
group-telegram.com/gentech_lab/29

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Oh no. There’s a certain degree of myth-making around what exactly went on, so take everything that follows lightly. Telegram was originally launched as a side project by the Durov brothers, with Nikolai handling the coding and Pavel as CEO, while both were at VK. Since January 2022, the SC has received a total of 47 complaints and enquiries on illegal investment schemes promoted through Telegram. These fraudulent schemes offer non-existent investment opportunities, promising very attractive and risk-free returns within a short span of time. They commonly offer unrealistic returns of as high as 1,000% within 24 hours or even within a few hours. Artem Kliuchnikov and his family fled Ukraine just days before the Russian invasion. "The result is on this photo: fiery 'greetings' to the invaders," the Security Service of Ukraine wrote alongside a photo showing several military vehicles among plumes of black smoke. Stocks closed in the red Friday as investors weighed upbeat remarks from Russian President Vladimir Putin about diplomatic discussions with Ukraine against a weaker-than-expected print on U.S. consumer sentiment.
from no


Telegram Gentech Lab
FROM American