Telegram Group & Telegram Channel
Итак, Janus-Pro от DeepSeek. Что это за модель такая?

Вчера, чуть позже, чем веса, стартап выложил тех.репорт про свою новую разработку. Сейчас разберемся, что там интересного.

Итак, Janus-Pro — это улучшенная версия предыдущей модели Janus (про нее мы писали тут). Относительно предшественника в Pro, кроме бОльшего размера и количества данных, появилось одно ключевое улучшение: раздельное кодирование для задач image2text и text2image.

То есть раньше в Янусе использовали единый энкодер для всех задач, и, как оказалось, это вызывало некоторые конфликты. Что, в целом, логично.

Ведь когда мы работаем в режиме мультимодального понимания, то есть image2text, это требует от модели глубокого семантического анализа визуального контента (например, «Какой объект изображён?» или «Что написано на доске?»). А когда ей нужно сгенерировать изображения, от нее требуются совсем другие навыки: понимание пространственных зависимостей, оттенков и соответствия промпту.

Вот и получается, что единый энкодер руинит качество сразу обеих задач. Поэтому в Janus-Pro их два: SigLIP для изображение → текст и VQ Tokenizer для текст → изображение.

Кроме того, для двух этих разных задач далее по пайплайну прикручены еще и два разных адаптера: Understanding Adaptor и Generation Adaptor, которые подбивают выходы энкодеров под формат внутренних слоев модели, то есть авторегрессионного трансформера.

В итоге Janus-Pro генерирует картинки лучше, чем DALL-E 3, SD3 и Emu3, а понимает изображение точнее, чем модели LLaVA! На примерах прогресс очевиден.

Больше метрик и деталей можно найти в полном тексте тех.отчета.

А попробовать погенерировать картинки с помощью модели кстати уже можно на HF, бесплатно



group-telegram.com/data_secrets/6017
Create:
Last Update:

Итак, Janus-Pro от DeepSeek. Что это за модель такая?

Вчера, чуть позже, чем веса, стартап выложил тех.репорт про свою новую разработку. Сейчас разберемся, что там интересного.

Итак, Janus-Pro — это улучшенная версия предыдущей модели Janus (про нее мы писали тут). Относительно предшественника в Pro, кроме бОльшего размера и количества данных, появилось одно ключевое улучшение: раздельное кодирование для задач image2text и text2image.

То есть раньше в Янусе использовали единый энкодер для всех задач, и, как оказалось, это вызывало некоторые конфликты. Что, в целом, логично.

Ведь когда мы работаем в режиме мультимодального понимания, то есть image2text, это требует от модели глубокого семантического анализа визуального контента (например, «Какой объект изображён?» или «Что написано на доске?»). А когда ей нужно сгенерировать изображения, от нее требуются совсем другие навыки: понимание пространственных зависимостей, оттенков и соответствия промпту.

Вот и получается, что единый энкодер руинит качество сразу обеих задач. Поэтому в Janus-Pro их два: SigLIP для изображение → текст и VQ Tokenizer для текст → изображение.

Кроме того, для двух этих разных задач далее по пайплайну прикручены еще и два разных адаптера: Understanding Adaptor и Generation Adaptor, которые подбивают выходы энкодеров под формат внутренних слоев модели, то есть авторегрессионного трансформера.

В итоге Janus-Pro генерирует картинки лучше, чем DALL-E 3, SD3 и Emu3, а понимает изображение точнее, чем модели LLaVA! На примерах прогресс очевиден.

Больше метрик и деталей можно найти в полном тексте тех.отчета.

А попробовать погенерировать картинки с помощью модели кстати уже можно на HF, бесплатно

BY Data Secrets






Share with your friend now:
group-telegram.com/data_secrets/6017

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The account, "War on Fakes," was created on February 24, the same day Russian President Vladimir Putin announced a "special military operation" and troops began invading Ukraine. The page is rife with disinformation, according to The Atlantic Council's Digital Forensic Research Lab, which studies digital extremism and published a report examining the channel. Pavel Durov, a billionaire who embraces an all-black wardrobe and is often compared to the character Neo from "the Matrix," funds Telegram through his personal wealth and debt financing. And despite being one of the world's most popular tech companies, Telegram reportedly has only about 30 employees who defer to Durov for most major decisions about the platform. Individual messages can be fully encrypted. But the user has to turn on that function. It's not automatic, as it is on Signal and WhatsApp. In December 2021, Sebi officials had conducted a search and seizure operation at the premises of certain persons carrying out similar manipulative activities through Telegram channels. Official government accounts have also spread fake fact checks. An official Twitter account for the Russia diplomatic mission in Geneva shared a fake debunking video claiming without evidence that "Western and Ukrainian media are creating thousands of fake news on Russia every day." The video, which has amassed almost 30,000 views, offered a "how-to" spot misinformation.
from de


Telegram Data Secrets
FROM American