dealerAI Telegram Group

Dealer.AI

Новый эмбеддер Nomic на MoE.

450M параметров, мультлингвальность и всего две целевые задачи: поиск парафраз и ассиметричный поиск (вопрос/ответ).

Интересен только код и мультилингвальный датасет.

https://www.nomic.ai/blog/posts/nomic-embed-text-v2

www.nomic.ai

Nomic Embed Text V2: An Open Source, Multilingual, Mixture-of-Experts Embedding Model

Nomic advances the state of the art with a multilingual mixture of experts embedding model

3.5K viewsedited 08:53

Dealer.AI

Боже какой у тебя большой Multimodal Embedder!?

😏

Сегодня будет пост с максимальным числом скрытого текста.

Тут китайцы продолжают меряться ~~дикпиками~~ размерами моделей. И выпустили me5 мультимодальный на 11 ярдов параметров, который базируется на архитектуре llama. 🪨 Боже кому это нафиг надо. Конечно показывают 🌿 метрики ребята, обогнав малышей CLIP, SigLIP и др. Избиение младенцев по капасити какое-то (челы побили модельки в десятки раз меньшие). Но самое интересное про метрики будет чуть позже.

Честно, кроме, как дистиллить такое чудо более меньшей моделькой для прод пригодности я не вижу вариантов. Однако, кое-что интересное из статьи вытащить можно.

А именно, это пайплайны создания и рафинирования обучающей выборки. Да, да, снова оказывается data science это про 80-90% качественной датки. Ребятки нагенерили качественной синты из не синты. Это как? А все просто используют многоуровневый пайп вычистки открытых сетов мульимодалки аля LAION (чет там набрали около 400M примеров), а дальше делали следующее комбо. Для каждого имаджа или подбирают или генерят высококачественный инстракт и описание. Далее матчат это в конструкции для контрастив обучения: IT-I, IT-IT, I-TI и тп и тд.

А что это вы спросите за набор аббревиатур самой секси-шмекси отрасли (ойти тобишь)? Дурак ты, шкет, это обозначения пар image, text и их интеракций в триплетах для сведения и разведения эмбеддингов в векторном пространстве. Причем, за этой простой аббревиатурой лежит более интересный дизайн сэмплинга. Ребята собирают не просто триплеты, а квадрии. Хотя в статье это зовут гордым именем эля с четверной выдержкой - квадрюпель, эт мы с мужиками в гараже одобряем.🤙 Крч, квадрии это связка: инструкции, query caption, positive caption, hard negative caption и тоже самое для картиночки инструкция + триплеты картинок позитив и негатив. И вот это получается кидают для дотюна в contrastive mode в квадрию: [Instruction, (Qt,Qi) , (Dt+ , Dt-), (Di+, Di-)], где i, t как раз картиносы и текст обозначения. Для дообучения используют естественно InfoNCE.

Там еще насыпали абляций, оценку влияния температуры и тп и тд. Почитаете в статье.

На сладкое осталось то, что подписчики пошарились по сетам тюна этого чуда и увидели там сабсеты с бенчей.🚬 Не в этом ли сила сота метрик или все же датка+капасити+проверенный контрастив пайп?💪
Пишите в комментариях свои мнения.

Please open Telegram to view this post

VIEW IN TELEGRAM

huggingface.co

intfloat/mmE5-mllama-11b-instruct · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

3.0K viewsedited 12:14

Dealer.AI

Боже какой у тебя большой Multimodal Embedder!?😏 Сегодня будет пост с максимальным числом скрытого текста. Тут китайцы продолжают меряться дикпиками размерами моделей. И выпустили me5 мультимодальный на 11 ярдов параметров, который базируется на архитектуре…

Как mm-e5 синту собирали

2.8K views12:15

Dealer.AI

Схемы сборки триплетов для задачек.
Upd. Рецепт прост-«all in» на все комбо.

3.0K viewsedited 12:15

Dealer.AI

Метрики 🌿

йопта

Please open Telegram to view this post

VIEW IN TELEGRAM

3.2K views12:16

Dealer.AI

А если глянуть че за сетики в тюне...

3.6K views12:16

Dealer.AI

Если у вас в городе не выпал зимой снег, голоса в голове говорят взять вон тот шиткоин, значит это нейрокомпьютеры уже всех победили...🧠

Но, без шуток, интересная шиза. Или не шиза...🤨

Читаем тлдр у дяди Бакуна
https://www.group-telegram.com/addmeto/6037

Please open Telegram to view this post

VIEW IN TELEGRAM

addmeto

У Дениса есть краткая заметка про происходящие сейчас очень интересные события. Вот немного подробностей, без которых значимость событий кажется меньше.

Есть некоторый адрес в сети Эфириум, который сейчас периодически отправляет довольно большие суммы денег…

3.1K viewsedited 16:25

Dealer.AI

Gemini Advanced обзавелся "длинной" памятью.

Разаботчики утверждают,что модель может эффективно использовать RAG механику для памяти, запрашивая схожие диалоги к текущему во всей истории общения с юзером.

Рассуждения Дяди на тему RAG памяти:
A. Нужно хранить нарезку диалогов по юзеру. И тут возникает сразу задачи: обновление индекса юзер диалогов на лету и идентификация какой кусок или какой диалог сохранить (ну не хранить ж все диалоги или хранить) и сюда же если резать,то как.

B. Обучение эмбеддера тоже дает вызовы: с чем матчить эмбы памяти (с фразой текущей юзера или фразой +контекст, если +контекст, то какой он глубины), по данной нарезке и состоянии диалога, и диалогов в памяти, делать обучение раг эмбеддера.

В остальном, идея понятна, имеем диалог стейт менеджера с ранкером,который подыскивает комплиментарные текущему контексту похожие диалоги в пршлом.

https://blog.google/feed/gemini-referencing-past-chats/

2.7K viewsedited 13:42

Dealer.AI

Если вы решили делать агентную систему на LLM по имитации офисных процессов, то вот вам идеальный алгоритм.

3.5K viewsedited 20:33

Dealer.AI

Ну CAG таг? Это ж и ни RETRO и ни RAG и не кагдилаг...

Тут ребята упоролись, и как в сказке: "родила царица в ночь не то сына, не то дочь". И перед нами предстает CAG

(дилаг простите

🤣

) - Cache augmented generation. CAG это мутант между RETRO и RAG, порождение зла и KV-cached подхода.

CAG работает на основе контекста LLM и использует ее же логику kv-кеширования (схема будет ниже) для создания "индекса" и самого запроса, хотя, буквально, это ретривал индексом назвать нельзя, все сразу на этапе инициализации грузится в контекст модели в kv-кэш. Отсюда же и ограничения на использование такой схемы, ввиду длины контекста (привет Titans и прочие жирноконтекстные момзели). Также такая схема работы нас роднит с моделями типа RETRO, тк для вычисления ответа нам нужно получить векторные представления подсказок. Но тут у нас нет cross-attention схемы и отдельного блока кодирования подсказок, модель сама их себе эмбеддит через kv-cache механизм.

Авторы выделяют плюсы: скорость работы, независимость от внешней базы и ретривера, ну и высокое качество по сравнению с классической RAG архитектурой на базе bm25 или dense retriever. Но смотрят всего две задачи HotPotQA и SquadQA.

Из минусов: мы во всю зависим от длины контекста модели для кеширования, и поэтому же не можем динамически менять индекс и в принципе иметь большой индекс как в RAG тк тут "индекс" подсказок грузится в контекст и модель сама решает какую часть этого кеша ей использовать. Нет возможности юзать мультимодалку. Хотя последнее спорно – можно эмбедить в kv-кеш и вектора картинок и аудио и видео.

Дяде, с одной стороны, конечно, такая схема не нравится,хотя он и rag и retro уважает,с другой стороны, если идти в развитие бесконечных контекстов LLM, почему бы и нет? А что думаете вы? Пишите мнение в комментариях.

Please open Telegram to view this post

VIEW IN TELEGRAM

arXiv.org

Don't Do RAG: When Cache-Augmented Generation is All You Need...

Retrieval-augmented generation (RAG) has gained traction as a powerful approach for enhancing language models by integrating external knowledge sources. However, RAG introduces challenges such as...

2.1K viewsedited 18:27

Dealer.AI

Ну CAG таг? Это ж и ни RETRO и ни RAG и не кагдилаг... Тут ребята упоролись, и как в сказке: "родила царица в ночь не то сына, не то дочь". И перед нами предстает CAG (дилаг простите

🤣

) - Cache augmented generation. CAG это мутант между RETRO и RAG, порождение…

Схема

2.0K views18:28

Dealer.AI

Схема

Оно же для любителей ЧБ

1.9K views18:32

Dealer.AI

Plan GPT. Или до Q* было слово A*. Рубрика ночное чтиво. Ознакомился тут со статьей на послевкусии хайпа с Q*. Было интересно, а были/есть ли работы и откуда пошел динамический планинг. В папире описывается интересный merge задач оптимального поиска пути…

Памятуя мой пост про планинг на LLM, вот ниже таки ребятки сделали аналогичное.

Отмечу, что решение в т.ч. arc также как и темы с алго A* по идее дают действительно трансфер и на "абстрактное суждение"/ориентацию и распознавание объектов. Причем и для arc абстракций и для лабиринтов в A* нагенерить можно кучу. Тут синты поле непаханное, а еще ж есть игра в жизнь, туда же, на клеточных автоматах.

https://www.group-telegram.com/AGI_and_RL/971

Агенты ИИ | AGI_and_RL

У нас тут бегущий по ризонингу

Ребята потренили Qwen 1.5B на то чтобы проходить не сильно сложные лабиринты 5x5. Но исходная моделька и этого не умела.

Нагенерили https://huggingface.co/datasets/jan-hq/Maze-Reasoning датасет со 100к лабиринтами, с COT трейсами.…

1.9K views15:59

Dealer.AI

Color_coded_racetrack_large_channel.gif

1.2 MB

Лабиринты, тесты абстрактной логики и игра в жизнь.

Продолжаем думки на тему, а зачем ученые дяди и тети заставляют LLM решать задачки ARC, поиск пути в лабиринте и тп.

Рассуждения навеяны статьями:
- AlphaMaze
- Beyond A*
- On the Messure of intelligence

Увидев вчерашние посты, коллеги стали задаваться вопросом: "а возможно ли обучаясь на такой синтетике и вообще решая задачки типа лабиринта словить aha эффект – когда модель начнет использовать полученные навыки в других задачах, также как это у людей получается?"

И мой ответ, конечно это возможно, даже больше скажу авторы данных экспериментов в первую очередь преследуют именно цель трансфера знаний и навыков на смежные задачи. Ведь, на самом деле, нам не так интересно искать пути в лабиринте с помощью LLM для этого у нас итак куча алгоритмов аля A* и др. Они быстрее, легче и эффективнее. А тогда зачем?
Наша цель подобно, как человек решает задачи абстрактной логики – это аля IQ тесты, где по картинкам над понять закономерность, в тч ARC, тренировать теже области весов модели, как области коры мозга у человека, которые позволяют нам лучше решать другие задачи,где важно абстрактное мышление.

Поэтому исследователи гоняют лабиринты 5*5/10*10, покоряют бенчмарки ARC и тп и тд. И мы видим, в статье про AlphaMaze важные выводы,что тупой прямой тюн не работает, модель из коробки не работает. А чтобы решать такие задачи приходится тюнить R класса модели, т.е. учить рассуждениям, планированию специально. "Ризонинг нада качать(с)". Но на самом деле, ризонинг в т.ч. качается через обучение таким задачам.

Еще интересное, что делали ребята из sakana.ai про создание симулятора игры в жизнь, через работу в пространстве visual embeddings. Но можно пойти дальше, не просто искать переходные состояния в пространстве векторов, можно же предсказывать в принципе следующие состояния эволюции популяции. Это как в arc мы связываем серию изображений с следующим наиболее логичным к этой серии. А тут мы по серии развития популяции (тоже в виде картинок, там же 2d) можем по ее картинке предсказывать следующий шаг. Кто знает,где такой трансфер может сыграть, помимо ARC-лайк и планинга. Может в прогнозировании динамики сложных систем? Создании новых материалов и драгов?

В общем, идея интересная, записывайте. Пробуйте.

1.8K viewsedited 09:02

Dealer.AI

Dealer.AI pinned a file

09:13

Dealer.AI

1.9K viewsedited 14:51

Dealer.AI

🤣

) - Cache augmented generation. CAG это мутант между RETRO и RAG, порождение…

Спасибо товарищу по цеху, как-то удачно выпустил пост про длинные контексты: https://www.group-telegram.com/gonzo_ML/3408

Тут прям в тему моего поста про CAG. Мы там с подписчиками в комментариях также сошлись ко мнению,что хорошо бы смотреть на метрики forgot in the middle для длинноконтекстных моделек.

gonzo-обзоры ML статей

Короткий комментарий про длинные контексты.

Сейчас уже многие модели поддерживают контекст размером 128k+, некоторые типа Gemini даже 1-2M. Но есть много подтверждений тому, что эффективный контекст (когда модель держит ещё нормальное качество) сильно ниже.…

1.6K viewsedited 11:15

Dealer.AI

Qwen`цы сделали анонс перед релизом своего нового супер-сервиса, видимо и чит-чат и поиск и рассуждения и тп – все в одном.

https://chat.qwen.ai

1.5K viewsedited 13:01

Dealer.AI

А...
Это, всего лишь, крыжовник...

😂

З. Ы. Запахло Йенифер...

Спасибо за шутку @kristaller

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1.1K views14:17

2025/02/24 20:28:25
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.group-telegram.com/buyppe/webview?embed=1" title="Channel Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>