Notice: file_put_contents(): Write of 12624 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50
Gentech Lab | Telegram Webview: gentech_lab/49 -
Telegram Group & Telegram Channel
OmniGen: Unified Image Generation #paper

Совсем свежая статья (сентябрь 2024), которая предлагает новый метод генерации изображений, открывающий радикально новые возможности для решения задач компьютерного зрения с помощью генеративных моделей.

Архитектура модели: трансформер (инициализирован весами Phi–3), VAE (взят из SDXL, заморожен) в качестве image encoder. На вход модель принимает текст и картинки (в любом количестве и в любом порядке), при этом картинки кодируются с помощью VAE, а затем проецируются в пространство текстовых токенов. Для текста используется маска Causal Attention, а для токенов картинки — Bi-directional. Так как модель диффузионная, то в неё на каждом шаге также подаются шум и timestep.

Модель обучается с помощью MSE, как FLUX.1 или SD3, по методу rectified flow. В качестве данных для тренировки используются классические датасеты содержащие картинки и их описания, а также специальные датасеты для различных задач: image editing, conditional generation, etc.

Получившаяся в результате модель позволяет не только генерировать изображения по тексту, но и использовать при этом различные вспомогательные данные, а также может решать любые задачи в сфере компьютерного зрения, которые можно представить в формате задачи генерации. Помимо этого, благодаря использованию мощной LM, модель показывает способности к размышлению и in-context learning.

💻 Github (обещают выложить веса и код)
📜 Paper

@gentech_lab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/gentech_lab/49
Create:
Last Update:

OmniGen: Unified Image Generation #paper

Совсем свежая статья (сентябрь 2024), которая предлагает новый метод генерации изображений, открывающий радикально новые возможности для решения задач компьютерного зрения с помощью генеративных моделей.

Архитектура модели: трансформер (инициализирован весами Phi–3), VAE (взят из SDXL, заморожен) в качестве image encoder. На вход модель принимает текст и картинки (в любом количестве и в любом порядке), при этом картинки кодируются с помощью VAE, а затем проецируются в пространство текстовых токенов. Для текста используется маска Causal Attention, а для токенов картинки — Bi-directional. Так как модель диффузионная, то в неё на каждом шаге также подаются шум и timestep.

Модель обучается с помощью MSE, как FLUX.1 или SD3, по методу rectified flow. В качестве данных для тренировки используются классические датасеты содержащие картинки и их описания, а также специальные датасеты для различных задач: image editing, conditional generation, etc.

Получившаяся в результате модель позволяет не только генерировать изображения по тексту, но и использовать при этом различные вспомогательные данные, а также может решать любые задачи в сфере компьютерного зрения, которые можно представить в формате задачи генерации. Помимо этого, благодаря использованию мощной LM, модель показывает способности к размышлению и in-context learning.

💻 Github (обещают выложить веса и код)
📜 Paper

@gentech_lab

BY Gentech Lab





Share with your friend now:
group-telegram.com/gentech_lab/49

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Lastly, the web previews of t.me links have been given a new look, adding chat backgrounds and design elements from the fully-features Telegram Web client. Asked about its stance on disinformation, Telegram spokesperson Remi Vaughn told AFP: "As noted by our CEO, the sheer volume of information being shared on channels makes it extremely difficult to verify, so it's important that users double-check what they read." Emerson Brooking, a disinformation expert at the Atlantic Council's Digital Forensic Research Lab, said: "Back in the Wild West period of content moderation, like 2014 or 2015, maybe they could have gotten away with it, but it stands in marked contrast with how other companies run themselves today." And while money initially moved into stocks in the morning, capital moved out of safe-haven assets. The price of the 10-year Treasury note fell Friday, sending its yield up to 2% from a March closing low of 1.73%. "Your messages about the movement of the enemy through the official chatbot … bring new trophies every day," the government agency tweeted.
from ua


Telegram Gentech Lab
FROM American