Новый эмбеддер Nomic на MoE.
450M параметров, мультлингвальность и всего две целевые задачи: поиск парафраз и ассиметричный поиск (вопрос/ответ).
Интересен только код и мультилингвальный датасет.
https://www.nomic.ai/blog/posts/nomic-embed-text-v2
450M параметров, мультлингвальность и всего две целевые задачи: поиск парафраз и ассиметричный поиск (вопрос/ответ).
Интересен только код и мультилингвальный датасет.
https://www.nomic.ai/blog/posts/nomic-embed-text-v2
www.nomic.ai
Nomic Embed Text V2: An Open Source, Multilingual, Mixture-of-Experts Embedding Model
Nomic advances the state of the art with a multilingual mixture of experts embedding model
Боже какой у тебя большой Multimodal Embedder !?😏
Сегодня будет пост с максимальным числом скрытого текста.
Тут китайцы продолжают мерятьсядикпиками размерами моделей. И выпустили me5 мультимодальный на 11 ярдов параметров, который базируется на архитектуре llama. 🪨 Боже кому это нафиг надо . Конечно показывают 🌿 метрики ребята, обогнав малышей CLIP, SigLIP и др. Избиение младенцев по капасити какое-то (челы побили модельки в десятки раз меньшие) . Но самое интересное про метрики будет чуть позже.
Честно, кроме, как дистиллить такое чудо более меньшей моделькой для прод пригодности я не вижу вариантов. Однако, кое-что интересное из статьи вытащить можно.
А именно, это пайплайны создания и рафинирования обучающей выборки. Да, да, снова оказывается data science это про 80-90% качественной датки. Ребятки нагенерили качественной синты из не синты. Это как? А все просто используют многоуровневый пайп вычистки открытых сетов мульимодалки аля LAION (чет там набрали около 400M примеров), а дальше делали следующее комбо. Для каждого имаджа или подбирают или генерят высококачественный инстракт и описание. Далее матчат это в конструкции для контрастив обучения: IT-I, IT-IT, I-TI и тп и тд.
А что это вы спросите за набор аббревиатур самой секси-шмекси отрасли (ойти тобишь)? Дурак ты, шкет, это обозначения пар image, text и их интеракций в триплетах для сведения и разведения эмбеддингов в векторном пространстве. Причем, за этой простой аббревиатурой лежит более интересный дизайн сэмплинга. Ребята собирают не просто триплеты, а квадрии. Хотя в статье это зовут гордым именем эля с четверной выдержкой - квадрюпель, эт мы с мужиками в гараже одобряем.🤙 Крч, квадрии это связка: инструкции, query caption, positive caption, hard negative caption и тоже самое для картиночки инструкция + триплеты картинок позитив и негатив. И вот это получается кидают для дотюна в contrastive mode в квадрию: [Instruction, (Qt,Qi) , (Dt+ , Dt-), (Di+, Di-)], где i, t как раз картиносы и текст обозначения. Для дообучения используют естественно InfoNCE.
Там еще насыпали абляций, оценку влияния температуры и тп и тд. Почитаете в статье.
На сладкое осталось то, что подписчики пошарились по сетам тюна этого чуда и увидели там сабсеты с бенчей.🚬 Не в этом ли сила сота метрик или все же датка+капасити+проверенный контрастив пайп?💪
Пишите в комментариях свои мнения.
Сегодня будет пост с максимальным числом скрытого текста.
Тут китайцы продолжают меряться
Честно, кроме, как дистиллить такое чудо более меньшей моделькой для прод пригодности я не вижу вариантов. Однако, кое-что интересное из статьи вытащить можно.
А именно, это пайплайны создания и рафинирования обучающей выборки. Да, да, снова оказывается data science это про 80-90% качественной датки. Ребятки нагенерили качественной синты из не синты. Это как? А все просто используют многоуровневый пайп вычистки открытых сетов мульимодалки аля LAION (чет там набрали около 400M примеров), а дальше делали следующее комбо. Для каждого имаджа или подбирают или генерят высококачественный инстракт и описание. Далее матчат это в конструкции для контрастив обучения: IT-I, IT-IT, I-TI и тп и тд.
А что это вы спросите за набор аббревиатур самой секси-шмекси отрасли (ойти тобишь)? Дурак ты, шкет, это обозначения пар image, text и их интеракций в триплетах для сведения и разведения эмбеддингов в векторном пространстве. Причем, за этой простой аббревиатурой лежит более интересный дизайн сэмплинга. Ребята собирают не просто триплеты, а квадрии. Хотя в статье это зовут гордым именем эля с четверной выдержкой - квадрюпель, эт мы с мужиками в гараже одобряем.
Там еще насыпали абляций, оценку влияния температуры и тп и тд. Почитаете в статье.
На сладкое осталось то, что подписчики пошарились по сетам тюна этого чуда и увидели там сабсеты с бенчей.
Пишите в комментариях свои мнения.
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
intfloat/mmE5-mllama-11b-instruct · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
Если у вас в городе не выпал зимой снег, голоса в голове говорят взять вон тот шиткоин, значит это нейрокомпьютеры уже всех победили...🧠
Но, без шуток, интересная шиза. Или не шиза...🤨
Читаем тлдр у дяди Бакуна
https://www.group-telegram.com/addmeto/6037
Но, без шуток, интересная шиза. Или не шиза...
Читаем тлдр у дяди Бакуна
https://www.group-telegram.com/addmeto/6037
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
addmeto
У Дениса есть краткая заметка про происходящие сейчас очень интересные события. Вот немного подробностей, без которых значимость событий кажется меньше.
Есть некоторый адрес в сети Эфириум, который сейчас периодически отправляет довольно большие суммы денег…
Есть некоторый адрес в сети Эфириум, который сейчас периодически отправляет довольно большие суммы денег…
Gemini Advanced обзавелся "длинной" памятью.
Разаботчики утверждают,что модель может эффективно использовать RAG механику для памяти, запрашивая схожие диалоги к текущему во всей истории общения с юзером.
Рассуждения Дяди на тему RAG памяти:
A. Нужно хранить нарезку диалогов по юзеру. И тут возникает сразу задачи: обновление индекса юзер диалогов на лету и идентификация какой кусок или какой диалог сохранить (ну не хранить ж все диалоги или хранить) и сюда же если резать,то как.
B. Обучение эмбеддера тоже дает вызовы: с чем матчить эмбы памяти (с фразой текущей юзера или фразой +контекст, если +контекст, то какой он глубины), по данной нарезке и состоянии диалога, и диалогов в памяти, делать обучение раг эмбеддера.
В остальном, идея понятна, имеем диалог стейт менеджера с ранкером,который подыскивает комплиментарные текущему контексту похожие диалоги в пршлом.
https://blog.google/feed/gemini-referencing-past-chats/
Разаботчики утверждают,что модель может эффективно использовать RAG механику для памяти, запрашивая схожие диалоги к текущему во всей истории общения с юзером.
Рассуждения Дяди на тему RAG памяти:
A. Нужно хранить нарезку диалогов по юзеру. И тут возникает сразу задачи: обновление индекса юзер диалогов на лету и идентификация какой кусок или какой диалог сохранить (ну не хранить ж все диалоги или хранить) и сюда же если резать,то как.
B. Обучение эмбеддера тоже дает вызовы: с чем матчить эмбы памяти (с фразой текущей юзера или фразой +контекст, если +контекст, то какой он глубины), по данной нарезке и состоянии диалога, и диалогов в памяти, делать обучение раг эмбеддера.
В остальном, идея понятна, имеем диалог стейт менеджера с ранкером,который подыскивает комплиментарные текущему контексту похожие диалоги в пршлом.
https://blog.google/feed/gemini-referencing-past-chats/
Ну CAG таг? Это ж и ни RETRO и ни RAG и не кагдилаг ...
Тут ребята упоролись, и как в сказке: "родила царица в ночь не то сына, не то дочь". И перед нами предстает CAG(дилаг простите 🤣 ) - Cache augmented generation. CAG это мутант между RETRO и RAG, порождение зла и KV-cached подхода.
CAG работает на основе контекста LLM и использует ее же логику kv-кеширования (схема будет ниже) для создания "индекса" и самого запроса, хотя, буквально, это ретривал индексом назвать нельзя, все сразу на этапе инициализации грузится в контекст модели в kv-кэш. Отсюда же и ограничения на использование такой схемы, ввиду длины контекста (привет Titans и прочие жирноконтекстные момзели). Также такая схема работы нас роднит с моделями типа RETRO, тк для вычисления ответа нам нужно получить векторные представления подсказок. Но тут у нас нет cross-attention схемы и отдельного блока кодирования подсказок, модель сама их себе эмбеддит через kv-cache механизм.
Авторы выделяют плюсы: скорость работы, независимость от внешней базы и ретривера, ну и высокое качество по сравнению с классической RAG архитектурой на базе bm25 или dense retriever. Но смотрят всего две задачи HotPotQA и SquadQA.
Из минусов: мы во всю зависим от длины контекста модели для кеширования, и поэтому же не можем динамически менять индекс и в принципе иметь большой индекс как в RAG тк тут "индекс" подсказок грузится в контекст и модель сама решает какую часть этого кеша ей использовать. Нет возможности юзать мультимодалку. Хотя последнее спорно – можно эмбедить в kv-кеш и вектора картинок и аудио и видео.
Дяде, с одной стороны, конечно, такая схема не нравится,хотя он и rag и retro уважает,с другой стороны, если идти в развитие бесконечных контекстов LLM, почему бы и нет? А что думаете вы? Пишите мнение в комментариях.
Тут ребята упоролись, и как в сказке: "родила царица в ночь не то сына, не то дочь". И перед нами предстает CAG
CAG работает на основе контекста LLM и использует ее же логику kv-кеширования (схема будет ниже) для создания "индекса" и самого запроса, хотя, буквально, это ретривал индексом назвать нельзя, все сразу на этапе инициализации грузится в контекст модели в kv-кэш. Отсюда же и ограничения на использование такой схемы, ввиду длины контекста (привет Titans и прочие жирноконтекстные момзели). Также такая схема работы нас роднит с моделями типа RETRO, тк для вычисления ответа нам нужно получить векторные представления подсказок. Но тут у нас нет cross-attention схемы и отдельного блока кодирования подсказок, модель сама их себе эмбеддит через kv-cache механизм.
Авторы выделяют плюсы: скорость работы, независимость от внешней базы и ретривера, ну и высокое качество по сравнению с классической RAG архитектурой на базе bm25 или dense retriever. Но смотрят всего две задачи HotPotQA и SquadQA.
Из минусов: мы во всю зависим от длины контекста модели для кеширования, и поэтому же не можем динамически менять индекс и в принципе иметь большой индекс как в RAG тк тут "индекс" подсказок грузится в контекст и модель сама решает какую часть этого кеша ей использовать. Нет возможности юзать мультимодалку. Хотя последнее спорно – можно эмбедить в kv-кеш и вектора картинок и аудио и видео.
Дяде, с одной стороны, конечно, такая схема не нравится,хотя он и rag и retro уважает,с другой стороны, если идти в развитие бесконечных контекстов LLM, почему бы и нет? А что думаете вы? Пишите мнение в комментариях.
Please open Telegram to view this post
VIEW IN TELEGRAM
arXiv.org
Don't Do RAG: When Cache-Augmented Generation is All You Need...
Retrieval-augmented generation (RAG) has gained traction as a powerful approach for enhancing language models by integrating external knowledge sources. However, RAG introduces challenges such as...
Dealer.AI
Plan GPT. Или до Q* было слово A*. Рубрика ночное чтиво. Ознакомился тут со статьей на послевкусии хайпа с Q*. Было интересно, а были/есть ли работы и откуда пошел динамический планинг. В папире описывается интересный merge задач оптимального поиска пути…
Памятуя мой пост про планинг на LLM, вот ниже таки ребятки сделали аналогичное.
Отмечу, что решение в т.ч. arc также как и темы с алго A* по идее дают действительно трансфер и на "абстрактное суждение"/ориентацию и распознавание объектов. Причем и для arc абстракций и для лабиринтов в A* нагенерить можно кучу. Тут синты поле непаханное, а еще ж есть игра в жизнь, туда же, на клеточных автоматах.
https://www.group-telegram.com/AGI_and_RL/971
Отмечу, что решение в т.ч. arc также как и темы с алго A* по идее дают действительно трансфер и на "абстрактное суждение"/ориентацию и распознавание объектов. Причем и для arc абстракций и для лабиринтов в A* нагенерить можно кучу. Тут синты поле непаханное, а еще ж есть игра в жизнь, туда же, на клеточных автоматах.
https://www.group-telegram.com/AGI_and_RL/971
Telegram
Агенты ИИ | AGI_and_RL
У нас тут бегущий по ризонингу
Ребята потренили Qwen 1.5B на то чтобы проходить не сильно сложные лабиринты 5x5. Но исходная моделька и этого не умела.
Нагенерили https://huggingface.co/datasets/jan-hq/Maze-Reasoning датасет со 100к лабиринтами, с COT трейсами.…
Ребята потренили Qwen 1.5B на то чтобы проходить не сильно сложные лабиринты 5x5. Но исходная моделька и этого не умела.
Нагенерили https://huggingface.co/datasets/jan-hq/Maze-Reasoning датасет со 100к лабиринтами, с COT трейсами.…
Color_coded_racetrack_large_channel.gif
1.2 MB
Лабиринты, тесты абстрактной логики и игра в жизнь.
Продолжаем думки на тему, а зачем ученые дяди и тети заставляют LLM решать задачки ARC, поиск пути в лабиринте и тп.
Рассуждения навеяны статьями:
- AlphaMaze
- Beyond A*
- On the Messure of intelligence
Увидев вчерашние посты, коллеги стали задаваться вопросом: "а возможно ли обучаясь на такой синтетике и вообще решая задачки типа лабиринта словить aha эффект – когда модель начнет использовать полученные навыки в других задачах, также как это у людей получается?"
И мой ответ, конечно это возможно, даже больше скажу авторы данных экспериментов в первую очередь преследуют именно цель трансфера знаний и навыков на смежные задачи. Ведь, на самом деле, нам не так интересно искать пути в лабиринте с помощью LLM для этого у нас итак куча алгоритмов аля A* и др. Они быстрее, легче и эффективнее. А тогда зачем?
Наша цель подобно, как человек решает задачи абстрактной логики – это аля IQ тесты, где по картинкам над понять закономерность, в тч ARC, тренировать теже области весов модели, как области коры мозга у человека, которые позволяют нам лучше решать другие задачи,где важно абстрактное мышление.
Поэтому исследователи гоняют лабиринты 5*5/10*10, покоряют бенчмарки ARC и тп и тд. И мы видим, в статье про AlphaMaze важные выводы,что тупой прямой тюн не работает, модель из коробки не работает. А чтобы решать такие задачи приходится тюнить R класса модели, т.е. учить рассуждениям, планированию специально. "Ризонинг нада качать(с)". Но на самом деле, ризонинг в т.ч. качается через обучение таким задачам.
Еще интересное, что делали ребята из sakana.ai про создание симулятора игры в жизнь, через работу в пространстве visual embeddings. Но можно пойти дальше, не просто искать переходные состояния в пространстве векторов, можно же предсказывать в принципе следующие состояния эволюции популяции. Это как в arc мы связываем серию изображений с следующим наиболее логичным к этой серии. А тут мы по серии развития популяции (тоже в виде картинок, там же 2d) можем по ее картинке предсказывать следующий шаг. Кто знает,где такой трансфер может сыграть, помимо ARC-лайк и планинга. Может в прогнозировании динамики сложных систем? Создании новых материалов и драгов?
В общем, идея интересная, записывайте. Пробуйте.
Продолжаем думки на тему, а зачем ученые дяди и тети заставляют LLM решать задачки ARC, поиск пути в лабиринте и тп.
Рассуждения навеяны статьями:
- AlphaMaze
- Beyond A*
- On the Messure of intelligence
Увидев вчерашние посты, коллеги стали задаваться вопросом: "а возможно ли обучаясь на такой синтетике и вообще решая задачки типа лабиринта словить aha эффект – когда модель начнет использовать полученные навыки в других задачах, также как это у людей получается?"
И мой ответ, конечно это возможно, даже больше скажу авторы данных экспериментов в первую очередь преследуют именно цель трансфера знаний и навыков на смежные задачи. Ведь, на самом деле, нам не так интересно искать пути в лабиринте с помощью LLM для этого у нас итак куча алгоритмов аля A* и др. Они быстрее, легче и эффективнее. А тогда зачем?
Наша цель подобно, как человек решает задачи абстрактной логики – это аля IQ тесты, где по картинкам над понять закономерность, в тч ARC, тренировать теже области весов модели, как области коры мозга у человека, которые позволяют нам лучше решать другие задачи,где важно абстрактное мышление.
Поэтому исследователи гоняют лабиринты 5*5/10*10, покоряют бенчмарки ARC и тп и тд. И мы видим, в статье про AlphaMaze важные выводы,что тупой прямой тюн не работает, модель из коробки не работает. А чтобы решать такие задачи приходится тюнить R класса модели, т.е. учить рассуждениям, планированию специально. "Ризонинг нада качать(с)". Но на самом деле, ризонинг в т.ч. качается через обучение таким задачам.
Еще интересное, что делали ребята из sakana.ai про создание симулятора игры в жизнь, через работу в пространстве visual embeddings. Но можно пойти дальше, не просто искать переходные состояния в пространстве векторов, можно же предсказывать в принципе следующие состояния эволюции популяции. Это как в arc мы связываем серию изображений с следующим наиболее логичным к этой серии. А тут мы по серии развития популяции (тоже в виде картинок, там же 2d) можем по ее картинке предсказывать следующий шаг. Кто знает,где такой трансфер может сыграть, помимо ARC-лайк и планинга. Может в прогнозировании динамики сложных систем? Создании новых материалов и драгов?
В общем, идея интересная, записывайте. Пробуйте.
Dealer.AI
Ну CAG таг? Это ж и ни RETRO и ни RAG и не кагдилаг ... Тут ребята упоролись, и как в сказке: "родила царица в ночь не то сына, не то дочь". И перед нами предстает CAG (дилаг простите 🤣 ) - Cache augmented generation. CAG это мутант между RETRO и RAG, порождение…
Спасибо товарищу по цеху, как-то удачно выпустил пост про длинные контексты: https://www.group-telegram.com/gonzo_ML/3408
Тут прям в тему моего поста про CAG. Мы там с подписчиками в комментариях также сошлись ко мнению,что хорошо бы смотреть на метрики forgot in the middle для длинноконтекстных моделек.
Тут прям в тему моего поста про CAG. Мы там с подписчиками в комментариях также сошлись ко мнению,что хорошо бы смотреть на метрики forgot in the middle для длинноконтекстных моделек.
Telegram
gonzo-обзоры ML статей
Короткий комментарий про длинные контексты.
Сейчас уже многие модели поддерживают контекст размером 128k+, некоторые типа Gemini даже 1-2M. Но есть много подтверждений тому, что эффективный контекст (когда модель держит ещё нормальное качество) сильно ниже.…
Сейчас уже многие модели поддерживают контекст размером 128k+, некоторые типа Gemini даже 1-2M. Но есть много подтверждений тому, что эффективный контекст (когда модель держит ещё нормальное качество) сильно ниже.…
Qwen`цы сделали анонс перед релизом своего нового супер-сервиса, видимо и чит-чат и поиск и рассуждения и тп – все в одном.
https://chat.qwen.ai
https://chat.qwen.ai
Dealer.AI
Qwen`цы сделали анонс перед релизом своего нового супер-сервиса, видимо и чит-чат и поиск и рассуждения и тп – все в одном. https://chat.qwen.ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM