Telegram Group & Telegram Channel
PuLID: Pure and Lightning ID Customization via Contrastive Alignment #face_id #paper

Статья 2024 года. Решается задача ID customization или перевод облика персонажа из одного стилевого домена в другой с сохранением его Identity. К Identity будем относить узнаваемость лица, прическу и цвет кожи.

Метод базируется на двух архитектурах: SDXL и SDXL-Lightning (метод быстрой генерации за 4 шага). Последняя применяется во время инференса и в качестве Lightning T2I training branch. Внутри этой части архитектуры авторы предлагают строить contrastive пары лиц w/o ID и w/ ID c общим, заданным через prompt, доменом стиля. За счет шеринга весов и контрастного обучения авторам получается добиться минимизации влияния ID эмбеддингов на семантику остальной картинки. В качестве ID Encoder-а авторы предлагают использовать face recognition model и EVA-CLIP, эмбеддинги от которых проходят через MLP слои и суммируются в общий вектор.

Обучение происходит в три стадии: 1) На первой происходит стандартное text-to-image (T2I) обучение. 2) На второй к диффузионному лоссу добавляется accurate L_id лосс. Считаем его между выходами Lightning T2I training branch w/o ID и w/ ID. Тут важно, что Identity мы считаем уже в расшумленном пространстве изображений (в предыдущих подходах face-id сеть накладывалась на промежуточных шагах с большим количеством шума). 3) Наконец, на третьей стадии добавляется semantic alignment и layout alignment loss-ы, отвечающие за сохранение информации в финальной генерации, которая не должна меняться во время ID инъекции.

💻Github
📜Paper

@gentech_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/gentech_lab/29
Create:
Last Update:

PuLID: Pure and Lightning ID Customization via Contrastive Alignment #face_id #paper

Статья 2024 года. Решается задача ID customization или перевод облика персонажа из одного стилевого домена в другой с сохранением его Identity. К Identity будем относить узнаваемость лица, прическу и цвет кожи.

Метод базируется на двух архитектурах: SDXL и SDXL-Lightning (метод быстрой генерации за 4 шага). Последняя применяется во время инференса и в качестве Lightning T2I training branch. Внутри этой части архитектуры авторы предлагают строить contrastive пары лиц w/o ID и w/ ID c общим, заданным через prompt, доменом стиля. За счет шеринга весов и контрастного обучения авторам получается добиться минимизации влияния ID эмбеддингов на семантику остальной картинки. В качестве ID Encoder-а авторы предлагают использовать face recognition model и EVA-CLIP, эмбеддинги от которых проходят через MLP слои и суммируются в общий вектор.

Обучение происходит в три стадии: 1) На первой происходит стандартное text-to-image (T2I) обучение. 2) На второй к диффузионному лоссу добавляется accurate L_id лосс. Считаем его между выходами Lightning T2I training branch w/o ID и w/ ID. Тут важно, что Identity мы считаем уже в расшумленном пространстве изображений (в предыдущих подходах face-id сеть накладывалась на промежуточных шагах с большим количеством шума). 3) Наконец, на третьей стадии добавляется semantic alignment и layout alignment loss-ы, отвечающие за сохранение информации в финальной генерации, которая не должна меняться во время ID инъекции.

💻Github
📜Paper

@gentech_lab

BY Gentech Lab






Share with your friend now:
group-telegram.com/gentech_lab/29

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Official government accounts have also spread fake fact checks. An official Twitter account for the Russia diplomatic mission in Geneva shared a fake debunking video claiming without evidence that "Western and Ukrainian media are creating thousands of fake news on Russia every day." The video, which has amassed almost 30,000 views, offered a "how-to" spot misinformation. Pavel Durov, a billionaire who embraces an all-black wardrobe and is often compared to the character Neo from "the Matrix," funds Telegram through his personal wealth and debt financing. And despite being one of the world's most popular tech companies, Telegram reportedly has only about 30 employees who defer to Durov for most major decisions about the platform. In December 2021, Sebi officials had conducted a search and seizure operation at the premises of certain persons carrying out similar manipulative activities through Telegram channels. "This time we received the coordinates of enemy vehicles marked 'V' in Kyiv region," it added. Oleksandra Matviichuk, a Kyiv-based lawyer and head of the Center for Civil Liberties, called Durov’s position "very weak," and urged concrete improvements.
from cn


Telegram Gentech Lab
FROM American