Telegram Group & Telegram Channel
PuLID: Pure and Lightning ID Customization via Contrastive Alignment #face_id #paper

Статья 2024 года. Решается задача ID customization или перевод облика персонажа из одного стилевого домена в другой с сохранением его Identity. К Identity будем относить узнаваемость лица, прическу и цвет кожи.

Метод базируется на двух архитектурах: SDXL и SDXL-Lightning (метод быстрой генерации за 4 шага). Последняя применяется во время инференса и в качестве Lightning T2I training branch. Внутри этой части архитектуры авторы предлагают строить contrastive пары лиц w/o ID и w/ ID c общим, заданным через prompt, доменом стиля. За счет шеринга весов и контрастного обучения авторам получается добиться минимизации влияния ID эмбеддингов на семантику остальной картинки. В качестве ID Encoder-а авторы предлагают использовать face recognition model и EVA-CLIP, эмбеддинги от которых проходят через MLP слои и суммируются в общий вектор.

Обучение происходит в три стадии: 1) На первой происходит стандартное text-to-image (T2I) обучение. 2) На второй к диффузионному лоссу добавляется accurate L_id лосс. Считаем его между выходами Lightning T2I training branch w/o ID и w/ ID. Тут важно, что Identity мы считаем уже в расшумленном пространстве изображений (в предыдущих подходах face-id сеть накладывалась на промежуточных шагах с большим количеством шума). 3) Наконец, на третьей стадии добавляется semantic alignment и layout alignment loss-ы, отвечающие за сохранение информации в финальной генерации, которая не должна меняться во время ID инъекции.

💻Github
📜Paper

@gentech_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/gentech_lab/29
Create:
Last Update:

PuLID: Pure and Lightning ID Customization via Contrastive Alignment #face_id #paper

Статья 2024 года. Решается задача ID customization или перевод облика персонажа из одного стилевого домена в другой с сохранением его Identity. К Identity будем относить узнаваемость лица, прическу и цвет кожи.

Метод базируется на двух архитектурах: SDXL и SDXL-Lightning (метод быстрой генерации за 4 шага). Последняя применяется во время инференса и в качестве Lightning T2I training branch. Внутри этой части архитектуры авторы предлагают строить contrastive пары лиц w/o ID и w/ ID c общим, заданным через prompt, доменом стиля. За счет шеринга весов и контрастного обучения авторам получается добиться минимизации влияния ID эмбеддингов на семантику остальной картинки. В качестве ID Encoder-а авторы предлагают использовать face recognition model и EVA-CLIP, эмбеддинги от которых проходят через MLP слои и суммируются в общий вектор.

Обучение происходит в три стадии: 1) На первой происходит стандартное text-to-image (T2I) обучение. 2) На второй к диффузионному лоссу добавляется accurate L_id лосс. Считаем его между выходами Lightning T2I training branch w/o ID и w/ ID. Тут важно, что Identity мы считаем уже в расшумленном пространстве изображений (в предыдущих подходах face-id сеть накладывалась на промежуточных шагах с большим количеством шума). 3) Наконец, на третьей стадии добавляется semantic alignment и layout alignment loss-ы, отвечающие за сохранение информации в финальной генерации, которая не должна меняться во время ID инъекции.

💻Github
📜Paper

@gentech_lab

BY Gentech Lab






Share with your friend now:
group-telegram.com/gentech_lab/29

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In a message on his Telegram channel recently recounting the episode, Durov wrote: "I lost my company and my home, but would do it again – without hesitation." "There is a significant risk of insider threat or hacking of Telegram systems that could expose all of these chats to the Russian government," said Eva Galperin with the Electronic Frontier Foundation, which has called for Telegram to improve its privacy practices. As a result, the pandemic saw many newcomers to Telegram, including prominent anti-vaccine activists who used the app's hands-off approach to share false information on shots, a study from the Institute for Strategic Dialogue shows. Although some channels have been removed, the curation process is considered opaque and insufficient by analysts. The SC urges the public to refer to the SC’s I nvestor Alert List before investing. The list contains details of unauthorised websites, investment products, companies and individuals. Members of the public who suspect that they have been approached by unauthorised firms or individuals offering schemes that promise unrealistic returns
from ye


Telegram Gentech Lab
FROM American