An Image is Worth One Word: превращение картинок в псевдо-слова для использования в text2image

AbstractDL

An Image is Worth One Word: превращение картинок в псевдо-слова для использования в text2image

Некоторые концепты сложно выразить существующими словами, их проще показать на примерах. Поэтому в Nvidia предложили использовать гениальный и простой трюк — превращать картинки в «псевдо-слова», а точнее, находить эмбеддинг несуществующего токена (p-tuning), который будет соответствовать требуемому визуальному концепту. Дальше это «псевдо-слово» можно вставлять в текст и генерировать сложные композиции (см. картинку).

Такой техникой можно сгенерировать изображение по тексту:
«A и B держат в руках С в стиле D»,
где A,B,C,D — это псевдотокены с заранее вычисленными по примерам картинок эмбеддингами.

Самое крутое здесь то, что не нужно ничего обучать, можно взять готовую text2image модель (Latent Diffusion) и итеративно вычислить эмбеддинги псевдотокенов для нужных картинок.

Статья, блог, GitHub

P.S. Новость подглядел тут.

www.group-telegram.com/de/abstractDL.com/153

11.4K viewsedited Aug 6, 2022 at 18:28

group-telegram.com/abstractDL/153

Create: 2022-08-06
Last Update: 2025-01-04 06:50:23

BY AbstractDL

Share with your friend now:
group-telegram.com/abstractDL/153

Telegram | DID YOU KNOW?

An Image is Worth One Word: превращение картинок в псевдо-слова для использования в text2image