А вот и первый IP-Adapter для FLUX.1 [dev] подъехал
IP-adapter - это штука, которая позволяет подавать в модель кроме текста еще и референсную картинку. По умолчанию Flux картинку на вход не принимает.
Подробнее про устройство IP-Adapter, и как он используется, например, в Midjourney я писал тут.
Тут используют openai/clip-vit-large в качестве энкодера изображений и подмешивают эти токены в модифицированный cross-attention.
Тренили его на 512x512 в течение 50k шагов и на 1024x1024 в течение 25k шагов. Во время инференса работает и в 512x512 и в 1024x1024.
Это только первая версия адаптера, поэтому может быть еще сыровата.
Веса на HF
Воркфлоу для Comfy UI
@ai_newz
IP-adapter - это штука, которая позволяет подавать в модель кроме текста еще и референсную картинку. По умолчанию Flux картинку на вход не принимает.
Подробнее про устройство IP-Adapter, и как он используется, например, в Midjourney я писал тут.
Тут используют openai/clip-vit-large в качестве энкодера изображений и подмешивают эти токены в модифицированный cross-attention.
Тренили его на 512x512 в течение 50k шагов и на 1024x1024 в течение 25k шагов. Во время инференса работает и в 512x512 и в 1024x1024.
Это только первая версия адаптера, поэтому может быть еще сыровата.
Веса на HF
Воркфлоу для Comfy UI
@ai_newz
group-telegram.com/ai_newz/3137
Create:
Last Update:
Last Update:
А вот и первый IP-Adapter для FLUX.1 [dev] подъехал
IP-adapter - это штука, которая позволяет подавать в модель кроме текста еще и референсную картинку. По умолчанию Flux картинку на вход не принимает.
Подробнее про устройство IP-Adapter, и как он используется, например, в Midjourney я писал тут.
Тут используют openai/clip-vit-large в качестве энкодера изображений и подмешивают эти токены в модифицированный cross-attention.
Тренили его на 512x512 в течение 50k шагов и на 1024x1024 в течение 25k шагов. Во время инференса работает и в 512x512 и в 1024x1024.
Это только первая версия адаптера, поэтому может быть еще сыровата.
Веса на HF
Воркфлоу для Comfy UI
@ai_newz
IP-adapter - это штука, которая позволяет подавать в модель кроме текста еще и референсную картинку. По умолчанию Flux картинку на вход не принимает.
Подробнее про устройство IP-Adapter, и как он используется, например, в Midjourney я писал тут.
Тут используют openai/clip-vit-large в качестве энкодера изображений и подмешивают эти токены в модифицированный cross-attention.
Тренили его на 512x512 в течение 50k шагов и на 1024x1024 в течение 25k шагов. Во время инференса работает и в 512x512 и в 1024x1024.
Это только первая версия адаптера, поэтому может быть еще сыровата.
Веса на HF
Воркфлоу для Comfy UI
@ai_newz
BY эйай ньюз
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/X6KjihfoPYBhut5gpbNHHB5JkK34viqjIjWtN3BtQ6KcychUoaNRRtNRRqx7CwlTcGF-dNZ-e4F2e0ari2XqqUmbp5dd0jPaNqgKEL0d7XPR2fDBvIBwl5S0b6wtak6F3NmhGQSPxDXao73j2jKAuX82v3VYSFE0yja8EcFGxt6522OCZvOr6UePt1JrSVgVjAN8FzYpIxOuC_aA5qrFxuXyMoEREDB0-5duvqPC0SWCYnVhCp2v9_xE1asBs4cK8InIdVI4K0bmw0P8FzkpD0jlNNHtxRsteNA0dCEXvPGw2lxWPsNOsFrH0uqWql9JUHRDdlDHB3btlV-kHLlbiA.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/gYtps8a0NFz3B6IhIlNVwCnKnLgJTJ4WKLVOO90WrEsvk6YKkJuwuA7Lzi1Hdv37_wZM55CEex8YuVjjxcwPNfHfH_dYR86GAU53rR0SalZja-4D7gxIfxCFpbFXYf0uCtIiGdY9qaiyd2w53Yaxv59-R85hOUFf_BhPW5ERGCAEI9cY-lhA3lNBMP0ZW01hDg7reLpIFwqV3LNwnsag9ZwTNUCkuZPOSAmmva71_1ECyypXVKiPfsx7AN1q-XDiOvB3SypfzrnunCSGN--twXurYNpP0Kmam6rUYnc2jOC5jN40eeahpyCUwClwqOkrIW4vs0WzHCvbZq7vs4dvWw.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/QGZIlkXpl9DY-JsgHx84DydLa5uKFmSHkA0rmcp2D0nqpvUZTF3pV3ns7mF2GRTIcppLP4Uc2S0wr_4LYu6XnZM-fLaTHEkICbxO45Ka-57BeWlVacpuVDbIrDNXA9Pa6UhsB-n5nXC4X7Emp5hHXKGVf4g542KN41uFd4-BOxOHq6dTNewOECkILL2aPdVRE6xLDnEqeR8tQPKW_3sU2gcR506dUYvxVQuLGNnMqoW4PQ6eQsQCpX1WbE-zEK-yNOVTaSab0OlqgXurb9SC0d_mnJCdfGjZjsOpawDRRa5RRkr1dGvLEiYxjExFLT5UonJSoJKSx1meDD2tyvs2qw.jpg)
Share with your friend now:
group-telegram.com/ai_newz/3137