Telegram Group & Telegram Channel
Боже какой у тебя большой Multimodal Embedder!?😏

Сегодня будет пост с максимальным числом скрытого текста.

Тут китайцы продолжают меряться дикпиками размерами моделей. И выпустили me5 мультимодальный на 11 ярдов параметров, который базируется на архитектуре llama. 🪨 Боже кому это нафиг надо. Конечно показывают 🌿 метрики ребята, обогнав малышей CLIP, SigLIP и др. Избиение младенцев по капасити какое-то (челы побили модельки в десятки раз меньшие). Но самое интересное про метрики будет чуть позже.

Честно, кроме, как дистиллить такое чудо более меньшей моделькой для прод пригодности я не вижу вариантов. Однако, кое-что интересное из статьи вытащить можно.

А именно, это пайплайны создания и рафинирования обучающей выборки. Да, да, снова оказывается data science это про 80-90% качественной датки. Ребятки нагенерили качественной синты из не синты. Это как? А все просто используют многоуровневый пайп вычистки открытых сетов мульимодалки аля LAION (чет там набрали около 400M примеров), а дальше делали следующее комбо. Для каждого имаджа или подбирают или генерят высококачественный инстракт и описание. Далее матчат это в конструкции для контрастив обучения: IT-I, IT-IT, I-TI и тп и тд.

А что это вы спросите за набор аббревиатур самой секси-шмекси отрасли (ойти тобишь)? Дурак ты, шкет, это обозначения пар image, text и их интеракций в триплетах для сведения и разведения эмбеддингов в векторном пространстве. Причем, за этой простой аббревиатурой лежит более интересный дизайн сэмплинга. Ребята собирают не просто триплеты, а квадрии. Хотя в статье это зовут гордым именем эля с четверной выдержкой - квадрюпель, эт мы с мужиками в гараже одобряем.🤙 Крч, квадрии это связка: инструкции, query caption, positive caption, hard negative caption и тоже самое для картиночки инструкция + триплеты картинок позитив и негатив. И вот это получается кидают для дотюна в contrastive mode в квадрию: [Instruction, (Qt,Qi) , (Dt+ , Dt-), (Di+, Di-)], где i, t как раз картиносы и текст обозначения. Для дообучения используют естественно InfoNCE.

Там еще насыпали абляций, оценку влияния температуры и тп и тд. Почитаете в статье.

На сладкое осталось то, что подписчики пошарились по сетам тюна этого чуда и увидели там сабсеты с бенчей.🚬 Не в этом ли сила сота метрик или все же датка+капасити+проверенный контрастив пайп?💪
Пишите в комментариях свои мнения.
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/dealerAI/1109
Create:
Last Update:

Боже какой у тебя большой Multimodal Embedder!?😏

Сегодня будет пост с максимальным числом скрытого текста.

Тут китайцы продолжают меряться дикпиками размерами моделей. И выпустили me5 мультимодальный на 11 ярдов параметров, который базируется на архитектуре llama. 🪨 Боже кому это нафиг надо. Конечно показывают 🌿 метрики ребята, обогнав малышей CLIP, SigLIP и др. Избиение младенцев по капасити какое-то (челы побили модельки в десятки раз меньшие). Но самое интересное про метрики будет чуть позже.

Честно, кроме, как дистиллить такое чудо более меньшей моделькой для прод пригодности я не вижу вариантов. Однако, кое-что интересное из статьи вытащить можно.

А именно, это пайплайны создания и рафинирования обучающей выборки. Да, да, снова оказывается data science это про 80-90% качественной датки. Ребятки нагенерили качественной синты из не синты. Это как? А все просто используют многоуровневый пайп вычистки открытых сетов мульимодалки аля LAION (чет там набрали около 400M примеров), а дальше делали следующее комбо. Для каждого имаджа или подбирают или генерят высококачественный инстракт и описание. Далее матчат это в конструкции для контрастив обучения: IT-I, IT-IT, I-TI и тп и тд.

А что это вы спросите за набор аббревиатур самой секси-шмекси отрасли (ойти тобишь)? Дурак ты, шкет, это обозначения пар image, text и их интеракций в триплетах для сведения и разведения эмбеддингов в векторном пространстве. Причем, за этой простой аббревиатурой лежит более интересный дизайн сэмплинга. Ребята собирают не просто триплеты, а квадрии. Хотя в статье это зовут гордым именем эля с четверной выдержкой - квадрюпель, эт мы с мужиками в гараже одобряем.🤙 Крч, квадрии это связка: инструкции, query caption, positive caption, hard negative caption и тоже самое для картиночки инструкция + триплеты картинок позитив и негатив. И вот это получается кидают для дотюна в contrastive mode в квадрию: [Instruction, (Qt,Qi) , (Dt+ , Dt-), (Di+, Di-)], где i, t как раз картиносы и текст обозначения. Для дообучения используют естественно InfoNCE.

Там еще насыпали абляций, оценку влияния температуры и тп и тд. Почитаете в статье.

На сладкое осталось то, что подписчики пошарились по сетам тюна этого чуда и увидели там сабсеты с бенчей.🚬 Не в этом ли сила сота метрик или все же датка+капасити+проверенный контрастив пайп?💪
Пишите в комментариях свои мнения.

BY Dealer.AI




Share with your friend now:
group-telegram.com/dealerAI/1109

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"Your messages about the movement of the enemy through the official chatbot … bring new trophies every day," the government agency tweeted. Ukrainian President Volodymyr Zelensky said in a video message on Tuesday that Ukrainian forces "destroy the invaders wherever we can." But because group chats and the channel features are not end-to-end encrypted, Galperin said user privacy is potentially under threat. Ukrainian forces have since put up a strong resistance to the Russian troops amid the war that has left hundreds of Ukrainian civilians, including children, dead, according to the United Nations. Ukrainian and international officials have accused Russia of targeting civilian populations with shelling and bombardments. The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips.
from us


Telegram Dealer.AI
FROM American