Telegram Group & Telegram Channel
OmniGen: Unified Image Generation #paper

Совсем свежая статья (сентябрь 2024), которая предлагает новый метод генерации изображений, открывающий радикально новые возможности для решения задач компьютерного зрения с помощью генеративных моделей.

Архитектура модели: трансформер (инициализирован весами Phi–3), VAE (взят из SDXL, заморожен) в качестве image encoder. На вход модель принимает текст и картинки (в любом количестве и в любом порядке), при этом картинки кодируются с помощью VAE, а затем проецируются в пространство текстовых токенов. Для текста используется маска Causal Attention, а для токенов картинки — Bi-directional. Так как модель диффузионная, то в неё на каждом шаге также подаются шум и timestep.

Модель обучается с помощью MSE, как FLUX.1 или SD3, по методу rectified flow. В качестве данных для тренировки используются классические датасеты содержащие картинки и их описания, а также специальные датасеты для различных задач: image editing, conditional generation, etc.

Получившаяся в результате модель позволяет не только генерировать изображения по тексту, но и использовать при этом различные вспомогательные данные, а также может решать любые задачи в сфере компьютерного зрения, которые можно представить в формате задачи генерации. Помимо этого, благодаря использованию мощной LM, модель показывает способности к размышлению и in-context learning.

💻 Github (обещают выложить веса и код)
📜 Paper

@gentech_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/gentech_lab/49
Create:
Last Update:

OmniGen: Unified Image Generation #paper

Совсем свежая статья (сентябрь 2024), которая предлагает новый метод генерации изображений, открывающий радикально новые возможности для решения задач компьютерного зрения с помощью генеративных моделей.

Архитектура модели: трансформер (инициализирован весами Phi–3), VAE (взят из SDXL, заморожен) в качестве image encoder. На вход модель принимает текст и картинки (в любом количестве и в любом порядке), при этом картинки кодируются с помощью VAE, а затем проецируются в пространство текстовых токенов. Для текста используется маска Causal Attention, а для токенов картинки — Bi-directional. Так как модель диффузионная, то в неё на каждом шаге также подаются шум и timestep.

Модель обучается с помощью MSE, как FLUX.1 или SD3, по методу rectified flow. В качестве данных для тренировки используются классические датасеты содержащие картинки и их описания, а также специальные датасеты для различных задач: image editing, conditional generation, etc.

Получившаяся в результате модель позволяет не только генерировать изображения по тексту, но и использовать при этом различные вспомогательные данные, а также может решать любые задачи в сфере компьютерного зрения, которые можно представить в формате задачи генерации. Помимо этого, благодаря использованию мощной LM, модель показывает способности к размышлению и in-context learning.

💻 Github (обещают выложить веса и код)
📜 Paper

@gentech_lab

BY Gentech Lab





Share with your friend now:
group-telegram.com/gentech_lab/49

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

These administrators had built substantial positions in these scrips prior to the circulation of recommendations and offloaded their positions subsequent to rise in price of these scrips, making significant profits at the expense of unsuspecting investors, Sebi noted. NEWS These entities are reportedly operating nine Telegram channels with more than five million subscribers to whom they were making recommendations on selected listed scrips. Such recommendations induced the investors to deal in the said scrips, thereby creating artificial volume and price rise. Also in the latest update is the ability for users to create a unique @username from the Settings page, providing others with an easy way to contact them via Search or their t.me/username link without sharing their phone number. In December 2021, Sebi officials had conducted a search and seizure operation at the premises of certain persons carrying out similar manipulative activities through Telegram channels.
from us


Telegram Gentech Lab
FROM American