OmniGen2: Exploration to Advanced Multimodal
Generation #image_editing #incontext_ganeration #paper
Свежая статья июня 2025 года. OmniGen2 — мультимодальная генеративная модель, решающая целый спектр задач генерации изображений: от текстовой генерации картинок до редактирования и in-context генерации. Главное отличие OmniGen2 от предыдущих моделей заключается в разделении архитектуры на два специализированных трансформера: авторегрессионный для текста (Qwen2.5-VL-3B) и диффузионный для изображений. В модели применены две отдельные системы кодирования изображений:
Обучение происходит в два этапа: обучение диффузионки с нуля с замороженным Qwen-ом, а дальше дообучение с помощью механизма рефлексии, который позволяет модели самостоятельно оценивать и исправлять ошибки генерации изображений. Процесс происходит в несколько шагов: модель сначала генерирует изображения, затем с помощью сильной мультимодальной модели оценивает качество и создаёт текстовую обратную связь, на основе которой исправляет результат.
В OmniGen2 предложили новый механизм позиционного кодирования Omni-RoPE: кодируем входные данные тройками (id, h, w). Здесь id линейно растет для текстового входа и фиксирован внутри отдельной картинки, а (h, w) — пространственно кодируют информацию в картинках и равны (0, 0) для текста.
Еще авторы предложили бенчмарк OmniContext. На скринах показаны схемы для сбора данных под задачи in-сontext generation и in-context editing. Основная идея — брать разные кадры из видео, автоматически выделять интересующие объекты и с помощью in/out-painting моделей модифицировать кадры для создания обучающих данных.
🤗 HF demo
💻 Github
📜 Paper
@gentech_lab
Generation #image_editing #incontext_ganeration #paper
Свежая статья июня 2025 года. OmniGen2 — мультимодальная генеративная модель, решающая целый спектр задач генерации изображений: от текстовой генерации картинок до редактирования и in-context генерации. Главное отличие OmniGen2 от предыдущих моделей заключается в разделении архитектуры на два специализированных трансформера: авторегрессионный для текста (Qwen2.5-VL-3B) и диффузионный для изображений. В модели применены две отдельные системы кодирования изображений:
ViT
для обработки визуальных данных в мультимодальном режиме и VAE
для более детальной проработки изображений в диффузионной части архитектуры.Обучение происходит в два этапа: обучение диффузионки с нуля с замороженным Qwen-ом, а дальше дообучение с помощью механизма рефлексии, который позволяет модели самостоятельно оценивать и исправлять ошибки генерации изображений. Процесс происходит в несколько шагов: модель сначала генерирует изображения, затем с помощью сильной мультимодальной модели оценивает качество и создаёт текстовую обратную связь, на основе которой исправляет результат.
В OmniGen2 предложили новый механизм позиционного кодирования Omni-RoPE: кодируем входные данные тройками (id, h, w). Здесь id линейно растет для текстового входа и фиксирован внутри отдельной картинки, а (h, w) — пространственно кодируют информацию в картинках и равны (0, 0) для текста.
Еще авторы предложили бенчмарк OmniContext. На скринах показаны схемы для сбора данных под задачи in-сontext generation и in-context editing. Основная идея — брать разные кадры из видео, автоматически выделять интересующие объекты и с помощью in/out-painting моделей модифицировать кадры для создания обучающих данных.
📜 Paper
@gentech_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM