Итак, Janus-Pro от DeepSeek. Что это за модель такая?
Вчера, чуть позже, чем веса, стартап выложил тех.репорт про свою новую разработку. Сейчас разберемся, что там интересного.
Итак, Janus-Pro — это улучшенная версия предыдущей модели Janus (про нее мы писали тут). Относительно предшественника в Pro, кроме бОльшего размера и количества данных, появилось одно ключевое улучшение: раздельное кодирование для задач image2text и text2image.
То есть раньше в Янусе использовали единый энкодер для всех задач, и, как оказалось, это вызывало некоторые конфликты. Что, в целом, логично.
Ведь когда мы работаем в режиме мультимодального понимания, то есть image2text, это требует от модели глубокого семантического анализа визуального контента (например, «Какой объект изображён?» или «Что написано на доске?»). А когда ей нужно сгенерировать изображения, от нее требуются совсем другие навыки: понимание пространственных зависимостей, оттенков и соответствия промпту.
Вот и получается, что единый энкодер руинит качество сразу обеих задач. Поэтому в Janus-Pro их два: SigLIP для изображение → текст и VQ Tokenizer для текст → изображение.
Кроме того, для двух этих разных задач далее по пайплайну прикручены еще и два разных адаптера: Understanding Adaptor и Generation Adaptor, которые подбивают выходы энкодеров под формат внутренних слоев модели, то есть авторегрессионного трансформера.
В итоге Janus-Pro генерирует картинки лучше, чем DALL-E 3, SD3 и Emu3, а понимает изображение точнее, чем модели LLaVA! На примерах прогресс очевиден.
Больше метрик и деталей можно найти в полном тексте тех.отчета.
А попробовать погенерировать картинки с помощью модели кстати уже можно на HF, бесплатно
Вчера, чуть позже, чем веса, стартап выложил тех.репорт про свою новую разработку. Сейчас разберемся, что там интересного.
Итак, Janus-Pro — это улучшенная версия предыдущей модели Janus (про нее мы писали тут). Относительно предшественника в Pro, кроме бОльшего размера и количества данных, появилось одно ключевое улучшение: раздельное кодирование для задач image2text и text2image.
То есть раньше в Янусе использовали единый энкодер для всех задач, и, как оказалось, это вызывало некоторые конфликты. Что, в целом, логично.
Ведь когда мы работаем в режиме мультимодального понимания, то есть image2text, это требует от модели глубокого семантического анализа визуального контента (например, «Какой объект изображён?» или «Что написано на доске?»). А когда ей нужно сгенерировать изображения, от нее требуются совсем другие навыки: понимание пространственных зависимостей, оттенков и соответствия промпту.
Вот и получается, что единый энкодер руинит качество сразу обеих задач. Поэтому в Janus-Pro их два: SigLIP для изображение → текст и VQ Tokenizer для текст → изображение.
Кроме того, для двух этих разных задач далее по пайплайну прикручены еще и два разных адаптера: Understanding Adaptor и Generation Adaptor, которые подбивают выходы энкодеров под формат внутренних слоев модели, то есть авторегрессионного трансформера.
В итоге Janus-Pro генерирует картинки лучше, чем DALL-E 3, SD3 и Emu3, а понимает изображение точнее, чем модели LLaVA! На примерах прогресс очевиден.
Больше метрик и деталей можно найти в полном тексте тех.отчета.
А попробовать погенерировать картинки с помощью модели кстати уже можно на HF, бесплатно
group-telegram.com/data_secrets/6017
Create:
Last Update:
Last Update:
Итак, Janus-Pro от DeepSeek. Что это за модель такая?
Вчера, чуть позже, чем веса, стартап выложил тех.репорт про свою новую разработку. Сейчас разберемся, что там интересного.
Итак, Janus-Pro — это улучшенная версия предыдущей модели Janus (про нее мы писали тут). Относительно предшественника в Pro, кроме бОльшего размера и количества данных, появилось одно ключевое улучшение: раздельное кодирование для задач image2text и text2image.
То есть раньше в Янусе использовали единый энкодер для всех задач, и, как оказалось, это вызывало некоторые конфликты. Что, в целом, логично.
Ведь когда мы работаем в режиме мультимодального понимания, то есть image2text, это требует от модели глубокого семантического анализа визуального контента (например, «Какой объект изображён?» или «Что написано на доске?»). А когда ей нужно сгенерировать изображения, от нее требуются совсем другие навыки: понимание пространственных зависимостей, оттенков и соответствия промпту.
Вот и получается, что единый энкодер руинит качество сразу обеих задач. Поэтому в Janus-Pro их два: SigLIP для изображение → текст и VQ Tokenizer для текст → изображение.
Кроме того, для двух этих разных задач далее по пайплайну прикручены еще и два разных адаптера: Understanding Adaptor и Generation Adaptor, которые подбивают выходы энкодеров под формат внутренних слоев модели, то есть авторегрессионного трансформера.
В итоге Janus-Pro генерирует картинки лучше, чем DALL-E 3, SD3 и Emu3, а понимает изображение точнее, чем модели LLaVA! На примерах прогресс очевиден.
Больше метрик и деталей можно найти в полном тексте тех.отчета.
А попробовать погенерировать картинки с помощью модели кстати уже можно на HF, бесплатно
Вчера, чуть позже, чем веса, стартап выложил тех.репорт про свою новую разработку. Сейчас разберемся, что там интересного.
Итак, Janus-Pro — это улучшенная версия предыдущей модели Janus (про нее мы писали тут). Относительно предшественника в Pro, кроме бОльшего размера и количества данных, появилось одно ключевое улучшение: раздельное кодирование для задач image2text и text2image.
То есть раньше в Янусе использовали единый энкодер для всех задач, и, как оказалось, это вызывало некоторые конфликты. Что, в целом, логично.
Ведь когда мы работаем в режиме мультимодального понимания, то есть image2text, это требует от модели глубокого семантического анализа визуального контента (например, «Какой объект изображён?» или «Что написано на доске?»). А когда ей нужно сгенерировать изображения, от нее требуются совсем другие навыки: понимание пространственных зависимостей, оттенков и соответствия промпту.
Вот и получается, что единый энкодер руинит качество сразу обеих задач. Поэтому в Janus-Pro их два: SigLIP для изображение → текст и VQ Tokenizer для текст → изображение.
Кроме того, для двух этих разных задач далее по пайплайну прикручены еще и два разных адаптера: Understanding Adaptor и Generation Adaptor, которые подбивают выходы энкодеров под формат внутренних слоев модели, то есть авторегрессионного трансформера.
В итоге Janus-Pro генерирует картинки лучше, чем DALL-E 3, SD3 и Emu3, а понимает изображение точнее, чем модели LLaVA! На примерах прогресс очевиден.
Больше метрик и деталей можно найти в полном тексте тех.отчета.
А попробовать погенерировать картинки с помощью модели кстати уже можно на HF, бесплатно
BY Data Secrets
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/f25IDotm6El6P7clLEm3UUk2DlWe9yB8PPZ1fkerhmGftGn-TgKMouRhHFE0zPYktxphoUKT4Zd-P4T703EhgW5OG95djzQDeicxliEh4nyRa8Bz3P87yQp477L9rxC3AcQ8lB-qcVLK2EvEf6yl_PKygRS0w4kH-C3biIW8HUwalhQogpDIyLyA1Z3gNLlqyQUzf8Uanc0wO6D7r_1tWKIgQSfgUHWkfxfNYEnkf40gMRwAgHrGjBcYR2gS5iue4G0X4T8_bEbi5GcspAYrrq1zt_yvpltygGiF1jvLbQ0cmD5tIPZpiSxstYcyq6im6pFzj-zLpkb89QC9GNDxMA.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/bHiYf2W_w0ADdmR-Q8ze4CS2ocZ-04d5QM_jMvc_RbA_bCf0bPAVfhDVSpUiKBTXIogeNniqCYJg1ZUJWs0712z0-2hwP0Aa9ifCjxQgoSaNHKjFD0LQmcrH78G9IIzwG6LNHFDTuo6fKJ8YaMBMRaqygU1s9X6WkPPKAbxjK-ZAX_KvhO3nrtqFDM9eorjgIxS6JKCchJHkKtvUQxNeFI9Hpj_BztsmMtOedsB0N_dvHmzsmnhevvyex-goE-0NGU_kO2Wx18O7GZTQ5kbtvlj7Xdc4v1KBQkFOqDe7l0R6TFjM6j-qDX63gGFiIdLVoSu7O0tsfM2MkFf4BPFULA.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/m2W8EZjfRJVSNmFOS-TJQ1_k69W2WDpY6eT5aBoqrq7DKFU0LdOW04N89uDMvDII-mvjIckN2iZseoCp-c-Thd7LveMrGsAF5UwK0jluPP1__yasDmXLWoaBzKQcpkFjaiiNNNa5lHKWQbWlXGV0X6LgcN_gUPl_0aRNhNAMqtr2H1ukC7_gT5Bzc0-OjHJQd6Uhf-2KpeTztx_6kb161EmthMTskXlMGO5_TnlIliy0fhukUPYV7Q5fkijElWC7Ih1SP2dN4Qbb0Jyh485umBaaTTKlD7KM6I0BVAacb6S6kXzrRhu9yh9HpCTpzmRTcSLz2HAvTAFLWQHn9ojT-g.jpg)
Share with your friend now:
group-telegram.com/data_secrets/6017