А вот и первый IP-Adapter для FLUX.1 [dev] подъехал
IP-adapter - это штука, которая позволяет подавать в модель кроме текста еще и референсную картинку. По умолчанию Flux картинку на вход не принимает.
Подробнее про устройство IP-Adapter, и как он используется, например, в Midjourney я писал тут.
Тут используют openai/clip-vit-large в качестве энкодера изображений и подмешивают эти токены в модифицированный cross-attention.
Тренили его на 512x512 в течение 50k шагов и на 1024x1024 в течение 25k шагов. Во время инференса работает и в 512x512 и в 1024x1024.
Это только первая версия адаптера, поэтому может быть еще сыровата.
Веса на HF
Воркфлоу для Comfy UI
@ai_newz
IP-adapter - это штука, которая позволяет подавать в модель кроме текста еще и референсную картинку. По умолчанию Flux картинку на вход не принимает.
Подробнее про устройство IP-Adapter, и как он используется, например, в Midjourney я писал тут.
Тут используют openai/clip-vit-large в качестве энкодера изображений и подмешивают эти токены в модифицированный cross-attention.
Тренили его на 512x512 в течение 50k шагов и на 1024x1024 в течение 25k шагов. Во время инференса работает и в 512x512 и в 1024x1024.
Это только первая версия адаптера, поэтому может быть еще сыровата.
Веса на HF
Воркфлоу для Comfy UI
@ai_newz
group-telegram.com/ai_newz/3137
Create:
Last Update:
Last Update:
А вот и первый IP-Adapter для FLUX.1 [dev] подъехал
IP-adapter - это штука, которая позволяет подавать в модель кроме текста еще и референсную картинку. По умолчанию Flux картинку на вход не принимает.
Подробнее про устройство IP-Adapter, и как он используется, например, в Midjourney я писал тут.
Тут используют openai/clip-vit-large в качестве энкодера изображений и подмешивают эти токены в модифицированный cross-attention.
Тренили его на 512x512 в течение 50k шагов и на 1024x1024 в течение 25k шагов. Во время инференса работает и в 512x512 и в 1024x1024.
Это только первая версия адаптера, поэтому может быть еще сыровата.
Веса на HF
Воркфлоу для Comfy UI
@ai_newz
IP-adapter - это штука, которая позволяет подавать в модель кроме текста еще и референсную картинку. По умолчанию Flux картинку на вход не принимает.
Подробнее про устройство IP-Adapter, и как он используется, например, в Midjourney я писал тут.
Тут используют openai/clip-vit-large в качестве энкодера изображений и подмешивают эти токены в модифицированный cross-attention.
Тренили его на 512x512 в течение 50k шагов и на 1024x1024 в течение 25k шагов. Во время инференса работает и в 512x512 и в 1024x1024.
Это только первая версия адаптера, поэтому может быть еще сыровата.
Веса на HF
Воркфлоу для Comfy UI
@ai_newz
BY эйай ньюз
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/EGKqnjRsrOJu-JgtDqONmczEnW7XXkomXcQpVnMtLBlMQIt3BEvNkdrf7gyhLzZ7vfT5szFnTJiv975wPpBOodlLS6GzNEccJWGbzBpZj43utibrxldl3ZeLCG1vIeEw1PBLwqmFjgIKtwU6sv3wc10jZnaim0NTTIoiWOAaoHCTgjJNl53cpi6vEaYBOxtPUMi2uLS_B2QMeltxRfQQ8FsbFmSQriH-76nUXDfeHk_57CdzNBolcp4MRDgl6fmCxemFqHsSOH1pPOt0cjSrmbDYHZ4VxhzUH8yQNI9xaH9ENVOo1NO-R09WsDyDrl1EonCcMK1CEtFpOlT8sr0ByA.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/XRztVm_LOR8H-QUvVUhjcmfv4G1moUKg-E4SzDF_AG8rXX4djOYfAy_w8WbOnMpK0QzdCAYu-S_k9BwTub3Lxz93L4OL_3bJkrVXBxHPfKWfoRQZskSlbZa_LOc4F71Vloku1Ag7gtK5wD8alQM9TMx0TJKx0ZLBsH0Kz6GXIpCUqmKCTV41xG1xf75VWhAWTFa0P2G5RcalohTWAs2DYEsyxrlP1Rosdycu8cvP5jwQjNW0tW3P0HUUYieCLO2VrTL_UbCevbLWwO9Krp7z3gg5hmcva8vId9BfrN9UTEkWfrI6Z80IRaHz3pf6qr-YkysSntEA60SeQCXtFFC8hQ.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/XJQln-Fgg78xPt1SPMZLgLavGlYLej5ql3vjAqWF_8aEPT3mm_41GYgnLjXs3fTashADE4IG7B6UqBSlDiifH8W8lUO-aVFj6bhrdy-imfSIoMTNg2K3Z1LWUT_1Gl6P0SgKamxexXeftHKBa_lf1l6jEPxgW1XqZvO-fIsl95AHXG3n8zGiKa9-LJVlrJ4Wqht3yJS_BNX9KlOK65yUpL70D6wHNwYL4JcfVC_uTsoSaYjt9XcGzUqpRVbGOj4LFRyTZ2cUThQuPwibip6uon5rh7qbbLP3yffJ1mKV2twDu02FucKu_0tb_KOnCu595kJWpn-gOtWppZYQ-24hTA.jpg)
Share with your friend now:
group-telegram.com/ai_newz/3137