Telegram Group & Telegram Channel
Итак, Janus-Pro от DeepSeek. Что это за модель такая?

Вчера, чуть позже, чем веса, стартап выложил тех.репорт про свою новую разработку. Сейчас разберемся, что там интересного.

Итак, Janus-Pro — это улучшенная версия предыдущей модели Janus (про нее мы писали тут). Относительно предшественника в Pro, кроме бОльшего размера и количества данных, появилось одно ключевое улучшение: раздельное кодирование для задач image2text и text2image.

То есть раньше в Янусе использовали единый энкодер для всех задач, и, как оказалось, это вызывало некоторые конфликты. Что, в целом, логично.

Ведь когда мы работаем в режиме мультимодального понимания, то есть image2text, это требует от модели глубокого семантического анализа визуального контента (например, «Какой объект изображён?» или «Что написано на доске?»). А когда ей нужно сгенерировать изображения, от нее требуются совсем другие навыки: понимание пространственных зависимостей, оттенков и соответствия промпту.

Вот и получается, что единый энкодер руинит качество сразу обеих задач. Поэтому в Janus-Pro их два: SigLIP для изображение → текст и VQ Tokenizer для текст → изображение.

Кроме того, для двух этих разных задач далее по пайплайну прикручены еще и два разных адаптера: Understanding Adaptor и Generation Adaptor, которые подбивают выходы энкодеров под формат внутренних слоев модели, то есть авторегрессионного трансформера.

В итоге Janus-Pro генерирует картинки лучше, чем DALL-E 3, SD3 и Emu3, а понимает изображение точнее, чем модели LLaVA! На примерах прогресс очевиден.

Больше метрик и деталей можно найти в полном тексте тех.отчета.

А попробовать погенерировать картинки с помощью модели кстати уже можно на HF, бесплатно



group-telegram.com/data_secrets/6017
Create:
Last Update:

Итак, Janus-Pro от DeepSeek. Что это за модель такая?

Вчера, чуть позже, чем веса, стартап выложил тех.репорт про свою новую разработку. Сейчас разберемся, что там интересного.

Итак, Janus-Pro — это улучшенная версия предыдущей модели Janus (про нее мы писали тут). Относительно предшественника в Pro, кроме бОльшего размера и количества данных, появилось одно ключевое улучшение: раздельное кодирование для задач image2text и text2image.

То есть раньше в Янусе использовали единый энкодер для всех задач, и, как оказалось, это вызывало некоторые конфликты. Что, в целом, логично.

Ведь когда мы работаем в режиме мультимодального понимания, то есть image2text, это требует от модели глубокого семантического анализа визуального контента (например, «Какой объект изображён?» или «Что написано на доске?»). А когда ей нужно сгенерировать изображения, от нее требуются совсем другие навыки: понимание пространственных зависимостей, оттенков и соответствия промпту.

Вот и получается, что единый энкодер руинит качество сразу обеих задач. Поэтому в Janus-Pro их два: SigLIP для изображение → текст и VQ Tokenizer для текст → изображение.

Кроме того, для двух этих разных задач далее по пайплайну прикручены еще и два разных адаптера: Understanding Adaptor и Generation Adaptor, которые подбивают выходы энкодеров под формат внутренних слоев модели, то есть авторегрессионного трансформера.

В итоге Janus-Pro генерирует картинки лучше, чем DALL-E 3, SD3 и Emu3, а понимает изображение точнее, чем модели LLaVA! На примерах прогресс очевиден.

Больше метрик и деталей можно найти в полном тексте тех.отчета.

А попробовать погенерировать картинки с помощью модели кстати уже можно на HF, бесплатно

BY Data Secrets






Share with your friend now:
group-telegram.com/data_secrets/6017

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram was founded in 2013 by two Russian brothers, Nikolai and Pavel Durov. Meanwhile, a completely redesigned attachment menu appears when sending multiple photos or vides. Users can tap "X selected" (X being the number of items) at the top of the panel to preview how the album will look in the chat when it's sent, as well as rearrange or remove selected media. The Securities and Exchange Board of India (Sebi) had carried out a similar exercise in 2017 in a matter related to circulation of messages through WhatsApp. Since its launch in 2013, Telegram has grown from a simple messaging app to a broadcast network. Its user base isn’t as vast as WhatsApp’s, and its broadcast platform is a fraction the size of Twitter, but it’s nonetheless showing its use. While Telegram has been embroiled in controversy for much of its life, it has become a vital source of communication during the invasion of Ukraine. But, if all of this is new to you, let us explain, dear friends, what on Earth a Telegram is meant to be, and why you should, or should not, need to care. One thing that Telegram now offers to all users is the ability to “disappear” messages or set remote deletion deadlines. That enables users to have much more control over how long people can access what you’re sending them. Given that Russian law enforcement officials are reportedly (via Insider) stopping people in the street and demanding to read their text messages, this could be vital to protect individuals from reprisals.
from ca


Telegram Data Secrets
FROM American