group-telegram.com/ai_newz/3413
Last Update:
Очередной хайп-тул от китайцев из ByteDance — SeedEdit
По сути, это еще один text2photoshop или по простому текстовый редактор картинок, но качество — моё почтение (судя по черипикам, а демо на Hugging Face у меня пока лежит).
Результаты получаются очень похожими на то, что даёт наш Emu Edit из соседней команды.
Пробежался по тех-репорту. Деталей там зиро, так же как и novelty:
Все таже начинают с обычной pre-trained text2img диффузии и генерят пары синтетических данных - картинка и ее отредактированная версия с инструкцией. Далее это все дело сильно фильтрут, дообучают модель на отфильтрованных парах с инструкциями. Затем опять повторяют по кругу - генерят синтетику, фильтруют и дотренивают модель. Так несколько раз.
По архитектуре: вместо добавления оригинальной картинки на вход с помощью конкатенации дополнительных каналов как в Emu Edit, тут кормят фичи оригинальной картинки в контекст self-attention блоков. Эта фишечка не новая, так делали уже например в Story Diffusion для генерации консистентных кадров.
Иначе говоря, ничего нового в методе нет, челы просто очень хорошо приготовили синтетические данные (data is the king).
Больше примеров ниже.
Демо на Hugging Face
Пейпер
Project page
@ai_newz
BY эйай ньюз
Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260
Share with your friend now:
group-telegram.com/ai_newz/3413