А вот и первый IP-Adapter для FLUX.1 [dev] подъехал
IP-adapter - это штука, которая позволяет подавать в модель кроме текста еще и референсную картинку. По умолчанию Flux картинку на вход не принимает.
Подробнее про устройство IP-Adapter, и как он используется, например, в Midjourney я писал тут.
Тут используют openai/clip-vit-large в качестве энкодера изображений и подмешивают эти токены в модифицированный cross-attention.
Тренили его на 512x512 в течение 50k шагов и на 1024x1024 в течение 25k шагов. Во время инференса работает и в 512x512 и в 1024x1024.
Это только первая версия адаптера, поэтому может быть еще сыровата.
Веса на HF
Воркфлоу для Comfy UI
@ai_newz
IP-adapter - это штука, которая позволяет подавать в модель кроме текста еще и референсную картинку. По умолчанию Flux картинку на вход не принимает.
Подробнее про устройство IP-Adapter, и как он используется, например, в Midjourney я писал тут.
Тут используют openai/clip-vit-large в качестве энкодера изображений и подмешивают эти токены в модифицированный cross-attention.
Тренили его на 512x512 в течение 50k шагов и на 1024x1024 в течение 25k шагов. Во время инференса работает и в 512x512 и в 1024x1024.
Это только первая версия адаптера, поэтому может быть еще сыровата.
Веса на HF
Воркфлоу для Comfy UI
@ai_newz
group-telegram.com/ai_newz/3137
Create:
Last Update:
Last Update:
А вот и первый IP-Adapter для FLUX.1 [dev] подъехал
IP-adapter - это штука, которая позволяет подавать в модель кроме текста еще и референсную картинку. По умолчанию Flux картинку на вход не принимает.
Подробнее про устройство IP-Adapter, и как он используется, например, в Midjourney я писал тут.
Тут используют openai/clip-vit-large в качестве энкодера изображений и подмешивают эти токены в модифицированный cross-attention.
Тренили его на 512x512 в течение 50k шагов и на 1024x1024 в течение 25k шагов. Во время инференса работает и в 512x512 и в 1024x1024.
Это только первая версия адаптера, поэтому может быть еще сыровата.
Веса на HF
Воркфлоу для Comfy UI
@ai_newz
IP-adapter - это штука, которая позволяет подавать в модель кроме текста еще и референсную картинку. По умолчанию Flux картинку на вход не принимает.
Подробнее про устройство IP-Adapter, и как он используется, например, в Midjourney я писал тут.
Тут используют openai/clip-vit-large в качестве энкодера изображений и подмешивают эти токены в модифицированный cross-attention.
Тренили его на 512x512 в течение 50k шагов и на 1024x1024 в течение 25k шагов. Во время инференса работает и в 512x512 и в 1024x1024.
Это только первая версия адаптера, поэтому может быть еще сыровата.
Веса на HF
Воркфлоу для Comfy UI
@ai_newz
BY эйай ньюз
Share with your friend now:
group-telegram.com/ai_newz/3137