Notice: file_put_contents(): Write of 12625 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50
Gentech Lab | Telegram Webview: gentech_lab/49 -
Telegram Group & Telegram Channel
OmniGen: Unified Image Generation #paper

Совсем свежая статья (сентябрь 2024), которая предлагает новый метод генерации изображений, открывающий радикально новые возможности для решения задач компьютерного зрения с помощью генеративных моделей.

Архитектура модели: трансформер (инициализирован весами Phi–3), VAE (взят из SDXL, заморожен) в качестве image encoder. На вход модель принимает текст и картинки (в любом количестве и в любом порядке), при этом картинки кодируются с помощью VAE, а затем проецируются в пространство текстовых токенов. Для текста используется маска Causal Attention, а для токенов картинки — Bi-directional. Так как модель диффузионная, то в неё на каждом шаге также подаются шум и timestep.

Модель обучается с помощью MSE, как FLUX.1 или SD3, по методу rectified flow. В качестве данных для тренировки используются классические датасеты содержащие картинки и их описания, а также специальные датасеты для различных задач: image editing, conditional generation, etc.

Получившаяся в результате модель позволяет не только генерировать изображения по тексту, но и использовать при этом различные вспомогательные данные, а также может решать любые задачи в сфере компьютерного зрения, которые можно представить в формате задачи генерации. Помимо этого, благодаря использованию мощной LM, модель показывает способности к размышлению и in-context learning.

💻 Github (обещают выложить веса и код)
📜 Paper

@gentech_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/gentech_lab/49
Create:
Last Update:

OmniGen: Unified Image Generation #paper

Совсем свежая статья (сентябрь 2024), которая предлагает новый метод генерации изображений, открывающий радикально новые возможности для решения задач компьютерного зрения с помощью генеративных моделей.

Архитектура модели: трансформер (инициализирован весами Phi–3), VAE (взят из SDXL, заморожен) в качестве image encoder. На вход модель принимает текст и картинки (в любом количестве и в любом порядке), при этом картинки кодируются с помощью VAE, а затем проецируются в пространство текстовых токенов. Для текста используется маска Causal Attention, а для токенов картинки — Bi-directional. Так как модель диффузионная, то в неё на каждом шаге также подаются шум и timestep.

Модель обучается с помощью MSE, как FLUX.1 или SD3, по методу rectified flow. В качестве данных для тренировки используются классические датасеты содержащие картинки и их описания, а также специальные датасеты для различных задач: image editing, conditional generation, etc.

Получившаяся в результате модель позволяет не только генерировать изображения по тексту, но и использовать при этом различные вспомогательные данные, а также может решать любые задачи в сфере компьютерного зрения, которые можно представить в формате задачи генерации. Помимо этого, благодаря использованию мощной LM, модель показывает способности к размышлению и in-context learning.

💻 Github (обещают выложить веса и код)
📜 Paper

@gentech_lab

BY Gentech Lab





Share with your friend now:
group-telegram.com/gentech_lab/49

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Sebi said data, emails and other documents are being retrieved from the seized devices and detailed investigation is in progress. Telegram Messenger Blocks Navalny Bot During Russian Election Groups are also not fully encrypted, end-to-end. This includes private groups. Private groups cannot be seen by other Telegram users, but Telegram itself can see the groups and all of the communications that you have in them. All of the same risks and warnings about channels can be applied to groups. He adds: "Telegram has become my primary news source." You may recall that, back when Facebook started changing WhatsApp’s terms of service, a number of news outlets reported on, and even recommended, switching to Telegram. Pavel Durov even said that users should delete WhatsApp “unless you are cool with all of your photos and messages becoming public one day.” But Telegram can’t be described as a more-secure version of WhatsApp.
from in


Telegram Gentech Lab
FROM American