Telegram Group & Telegram Channel
Итак, Janus-Pro от DeepSeek. Что это за модель такая?

Вчера, чуть позже, чем веса, стартап выложил тех.репорт про свою новую разработку. Сейчас разберемся, что там интересного.

Итак, Janus-Pro — это улучшенная версия предыдущей модели Janus (про нее мы писали тут). Относительно предшественника в Pro, кроме бОльшего размера и количества данных, появилось одно ключевое улучшение: раздельное кодирование для задач image2text и text2image.

То есть раньше в Янусе использовали единый энкодер для всех задач, и, как оказалось, это вызывало некоторые конфликты. Что, в целом, логично.

Ведь когда мы работаем в режиме мультимодального понимания, то есть image2text, это требует от модели глубокого семантического анализа визуального контента (например, «Какой объект изображён?» или «Что написано на доске?»). А когда ей нужно сгенерировать изображения, от нее требуются совсем другие навыки: понимание пространственных зависимостей, оттенков и соответствия промпту.

Вот и получается, что единый энкодер руинит качество сразу обеих задач. Поэтому в Janus-Pro их два: SigLIP для изображение → текст и VQ Tokenizer для текст → изображение.

Кроме того, для двух этих разных задач далее по пайплайну прикручены еще и два разных адаптера: Understanding Adaptor и Generation Adaptor, которые подбивают выходы энкодеров под формат внутренних слоев модели, то есть авторегрессионного трансформера.

В итоге Janus-Pro генерирует картинки лучше, чем DALL-E 3, SD3 и Emu3, а понимает изображение точнее, чем модели LLaVA! На примерах прогресс очевиден.

Больше метрик и деталей можно найти в полном тексте тех.отчета.

А попробовать погенерировать картинки с помощью модели кстати уже можно на HF, бесплатно



group-telegram.com/data_secrets/6017
Create:
Last Update:

Итак, Janus-Pro от DeepSeek. Что это за модель такая?

Вчера, чуть позже, чем веса, стартап выложил тех.репорт про свою новую разработку. Сейчас разберемся, что там интересного.

Итак, Janus-Pro — это улучшенная версия предыдущей модели Janus (про нее мы писали тут). Относительно предшественника в Pro, кроме бОльшего размера и количества данных, появилось одно ключевое улучшение: раздельное кодирование для задач image2text и text2image.

То есть раньше в Янусе использовали единый энкодер для всех задач, и, как оказалось, это вызывало некоторые конфликты. Что, в целом, логично.

Ведь когда мы работаем в режиме мультимодального понимания, то есть image2text, это требует от модели глубокого семантического анализа визуального контента (например, «Какой объект изображён?» или «Что написано на доске?»). А когда ей нужно сгенерировать изображения, от нее требуются совсем другие навыки: понимание пространственных зависимостей, оттенков и соответствия промпту.

Вот и получается, что единый энкодер руинит качество сразу обеих задач. Поэтому в Janus-Pro их два: SigLIP для изображение → текст и VQ Tokenizer для текст → изображение.

Кроме того, для двух этих разных задач далее по пайплайну прикручены еще и два разных адаптера: Understanding Adaptor и Generation Adaptor, которые подбивают выходы энкодеров под формат внутренних слоев модели, то есть авторегрессионного трансформера.

В итоге Janus-Pro генерирует картинки лучше, чем DALL-E 3, SD3 и Emu3, а понимает изображение точнее, чем модели LLaVA! На примерах прогресс очевиден.

Больше метрик и деталей можно найти в полном тексте тех.отчета.

А попробовать погенерировать картинки с помощью модели кстати уже можно на HF, бесплатно

BY Data Secrets






Share with your friend now:
group-telegram.com/data_secrets/6017

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

What distinguishes the app from competitors is its use of what's known as channels: Public or private feeds of photos and videos that can be set up by one person or an organization. The channels have become popular with on-the-ground journalists, aid workers and Ukrainian President Volodymyr Zelenskyy, who broadcasts on a Telegram channel. The channels can be followed by an unlimited number of people. Unlike Facebook, Twitter and other popular social networks, there is no advertising on Telegram and the flow of information is not driven by an algorithm. In December 2021, Sebi officials had conducted a search and seizure operation at the premises of certain persons carrying out similar manipulative activities through Telegram channels. Since January 2022, the SC has received a total of 47 complaints and enquiries on illegal investment schemes promoted through Telegram. These fraudulent schemes offer non-existent investment opportunities, promising very attractive and risk-free returns within a short span of time. They commonly offer unrealistic returns of as high as 1,000% within 24 hours or even within a few hours. But Telegram says people want to keep their chat history when they get a new phone, and they like having a data backup that will sync their chats across multiple devices. And that is why they let people choose whether they want their messages to be encrypted or not. When not turned on, though, chats are stored on Telegram's services, which are scattered throughout the world. But it has "disclosed 0 bytes of user data to third parties, including governments," Telegram states on its website. These entities are reportedly operating nine Telegram channels with more than five million subscribers to whom they were making recommendations on selected listed scrips. Such recommendations induced the investors to deal in the said scrips, thereby creating artificial volume and price rise.
from vn


Telegram Data Secrets
FROM American