dealerAI 1108 Telegram Group

Dealer.AI

🛩 Sticker

Тем временем рынок акций, связанных с разработкой ИИ, компаний 🫡🫡🫡🫡

4.0K viewsedited 16:33

Dealer.AI

Тем временем рынок акций, связанных с разработкой ИИ, компаний 🫡🫡🫡🫡

4.4K views16:36

Dealer.AI

О, этот дядя ранее за BERTы тоже гуд расскладывал. 👇👇👇

3.7K viewsedited 08:51

Dealer.AI

Forwarded from gonzo-обзоры ML статей

В продолжение темы, Jay Alammar, у которого были прекрасные визуальные объяснения про работу трансформера, в сто раз лучшие оригинальной статьи, выпустил только что иллюстрированный DeepSeek-R1

https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1

newsletter.languagemodels.co

The Illustrated DeepSeek-R1

A recipe for reasoning LLMs

3.0K views08:51

Dealer.AI

В продолжение темы, Jay Alammar, у которого были прекрасные визуальные объяснения про работу трансформера, в сто раз лучшие оригинальной статьи, выпустил только что иллюстрированный DeepSeek-R1 https://newsletter.languagemodels.co/p/the-illustrated-deepseek…

Над поднять просмотры мемасиком.

27.5K views10:07

Dealer.AI

Над поднять просмотры мемасиком.

Да поста я хотел просмотры поднять от индуса, вы че такие жОские хД

3.9K viewsedited 16:20

Dealer.AI

Думки Дяди про Huge DeepSeek и это вот все.

С одной стороны, я рад, что мои прогнозы (и не только лишь мои) про демократизацию AI (в первую очередь модели, код в open source) сбываются.
С другой стороны мы приходим снова к тому, что мало просто закидать компьютом обучение, отскейлить capacity по весам. Порой надо и мозг же включать в части оптимизации обучения (как они хакнули H800, красавцы !?), в части использования базовых уже известных хорошо работающих подходов (как оттолкнулись от llama и др. круто), и помножив это на хорошо собранный датасет и дизайн обучения,можно получить оказывается конкурентное решение. А если еще свое привнести улучшение в архитектуре, в дизайне экспериментов и тп,доказанное абляциями, разумеется, то можно вообще претендовать уже на свой инкремент, а не тупо форк го бррр.
И тут же, все чаще слышно: "да зачем мне ваше рнд, ща форкну, датку подготовлю гуд и го брр". Недаром уже HF сделало Open R1 проект,чтобы воспроизвести решение. Но вот вам и пример с DeepSeek на что надо еще и рнд шурупить. Пока вы форкаете код публичных лидеров, вы идете goflow за лидером, но вы не обгоняете их, а лишь следуете по его следам, а он, когда выложил что-то в открытый доступ,уже давно делает еще лучшее решение. А чтобы догнать и обогнать хорошо бы потратиться на R часть.
Да конечно, ничего магического нет в том,что сделали китайцы. Собрали все,что работает вместе, все статьи в доступе, код тоже, архитектуры - до всего дотянуться реально. Добавили пару своих фишек, хакнули компьют и присыпали своей модификацией ppo. Но под капотом еще у нас абляции, поиск лучшего комбо и затраты на получение той работающей формулы grpo.

Тут же напомню, как появлялись, к примеру последние интересные решения в разных областях DL:

- FILIP: берем CLIP вспоминаем про ColBERT loss изменяем нарезку и интеракции эмбов с "токенов изображенй и текста" как там и получаем инкремент.
- SimPO из DPO: создатели идут от базы, что в лоссе у нас используется pair-ranking loss с сигмоид релаксацией. А тк у нас есть еще и триплет лосс с зазором, без которого это как раз-таки pair ranking loss, то давайте это добавим в dpo. Потом уберем штраф к референс модели и накинем норму взамен.
- Пример улучшения обучения GPT2 с учётом ухода от Relu , к ReLU^2 и заменой LayerNorm на RmsNorm. Как следствие ускорение обучения (это когда за меньшее число эпох сходимся). Кстати авторы Qwen ту же нормализацию микстят с SwiGLU.
- Про улучшение PPO в GRPO советую почитать у моего товарища по цеху. А еще прикольное тут.
... И тп. и тд.

А теперь посмотрите на видимый прогресс llm с тч зрения дизайна экспов: next token prediction->instruct tuning->rlhf->CoT/ToT/multihop->то же самое с RL->тоже самое с self refine/RLAIF/SelfPlaying. Чуваки двигаются инкерементально, берут базовые/уже известные блоки и микстуют их, находят работающие комбо и получают прирост. Естественно сначала из прошлой итерации выжав все по-максимуму.
Да согласен,что где-то роляет чисто инженерный подход, зачастую, это ребята с опытом "прода" (у r1 вообще хэджфонд, кванты и тп) особенно в области оптимизации инференса или обучения (привет заход под CUDA/c++). Если же говорить о дизайне экспериментов:новых методах/лоссах, сэмплинге, токенайзере, архитектурных инкрементах, разумеется без РнД никуда. Вопрос остается в качестве и количестве единиц.

Если вы немаленький игрок на рынке, с ресурсами и желанием вложиться в прорыв, но сейчас делаете go flow, с блэкджеком и форками, DeepSeek пример того, как можно "сменить лидера". It's time подсидеть того самого соседа (внутри или снаружи), тк эти ребята доказали,что это возможно. Просто сконцентрируйтесь не на тех задачах,что дают вам +2-3% к тому, что уже есть, а приоритизируйте самые, по-вашему мнению, драйвящие фичи наверх. Возможно и стоит разобрать на косточки решение китайцев,но лишь для того,чтобы в багаж получить новые работающие хинты и собрать из них свой лего, улучшить их и возможно уже вы завтра станете game changers. Если конечно оно Вам надо...

Всем stay tuned. 🦾

4.0K viewsedited 08:16

Dealer.AI

От RStaR до DeepSeek и обратно. Или краткий обзор, а че это ваще было!?

Итак, deepseek наделало много шума. Но давайте бегло пройдемся в стиле "а чей-то вообще было?". Для начала, если взглянуть в архитектуру, то можно увидеть наследие llama, присыпанное МоЕ слоями. Это "чудо генной МоЕ инженерии" далее учили интересным образом. Первое это, разумеется pretrain. Однако после, мы видим, что для zero поколения не используют SFT стадию, а сразу переходят к RL.

Все знакомые задаются вопросом:
- "Почему без sft?".
При этом на просторах паутины всплывает статья. В ней описываются эксперименты, как влияет на генерализацию и др. способности после претрейна этапы sft и rl обучения моделей.
Если кратко, выводы такие, что sft работает лучше на запоминание паттернов, а rl лучше способствует ризонингу и генерализации на "новых задачах". Поясню. Т.е. sft надо включать тогда, когда хочется сделать domain adaptation и все. Ну а если вам хочется работать лучше на "неожиданных" out of fold примерах, лучше юзать rl.
Но, на взгляд Дяди, никто не запрещает микстить оба подхода. Еще замечу, что интуитивно мне понятно почему rl способствует большей "свободе" в ориентации по задачам. Сама постановка обучения с подкреплением - это работа с большей вариативностью исходов, которые обеспечивает среда, она может порождать больше примеров, чем рукописная выборка, а значит на этапе тюна мы увидим больше вариантов развития событий. Модель засчет награды научится эти варианты обрабатывать, улучшится ризонинг, планинг и тп.
Почитать выжимку также можно у коллеги тут.

Про no model rl. Еще один плюс подхода заключается в том, что в zero сетапе нет внешней модели, в качестве среды для grpo у нас выступают правила и компилятор. Тк задачи имеют точный итоговый ответ, то с ним можно сравниться по заданным критериям, а если это код использовать селф-дебаг и компилятор. Привет, к примеру RStaR. А еще это даёт возможность уйти от взлома reward модели, например, через oov примеры (модель награды не видела всех исходов).

Однако, для дальнейших стадий обучения авторы прибегнут и к внешней модели награды и к RLAIF подходу, и, конечно, будут делать sft, перемежая его с rl grpo. А все из-за "проблемы" с мультиязыком и как решить эти переходы во время рассуждений модели. В том числе, для этого, как пишут авторы, были добавлены стадии сфт и тп. Но у нас сложность интерпретации падает не только из-за мультияза, но и еще из-за LongCoT цепочек, как артефакта rl. Кстати, длинные рассуждения это артефакт взаимодействия rl обучения и thinking токенов - тут это формат, где мы указываем откуда начинать и где закончить блок рассуждений. И этот формат также проверяется в no model reward. Дядя бы и туда проверку на стабильность языка добавил, мол доля токенов целевого языка бы мерилась к нецелевой и добавлялась в награду.

Переход от zero к hero (zero deepseek r1 vs deepseek r1). Итого мы получаем, что на первом этапе модель учится в сетапе: pretrain+thinking area/tokens + rl. Так получается zero R1. После используется sft+rl+rlaif дообучение. Здесь нужно пояснение. Процесс обучения второй стадии начинается с холодного старта. DeepSeek v3 тюнят на рафинированном датасете, который просеян через Zero-R1 — отобранные high quality примеры. Так подтягивают читаемость. Далее проходит этап RL для улучшения ризонинга. Потом снова, используя модель со второго этапа, отбирают лучшие варианты из обучающей выборки (состоит в основном из рассуждений) + используют некую reward модель, о которой упоминается вскольз (но тоже на базе DeepSeek.v3), такой вот rejection sampling. Наконец, делают последний rl тюн на rule based награде и сете из разнообразных задач, тут же включают RLAIF подход для выравнивания. Такой длинный пайп, снова роднит нас, на мой взгляд с RStaR подходом обучения. Там тоже были схожие стадии просеивания и самоулучшения.

Далее 👇👇👇👇👇

arXiv.org

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation...

Supervised fine-tuning (SFT) and reinforcement learning (RL) are widely used post-training techniques for foundation models. However, their roles in enhancing model generalization capabilities...

6.6K viewsedited 17:46

Dealer.AI

Продолжение и окончание...

Про сходимость. Why ранее делали rl и не работало , а тут стало? Есть гипотеза, что сработал сетевой эффект, когда хайп породил в публичных источниках кучу новых данных с оценками для целевых задач: код, математика и пр. Те синта, датка с соревок на каггле и тп, новые открытые сеты и тп. И достигнута такая критическая масса разнообразных примеров, что их стало хватать для дообучения с rl. Но это так сказать версия из той же "сети". Поэтому не судите строго.

На этом все. Пишите, что вы также приметили в техрепорте интересного, ведь, это один из немногих случаев, когда перечитываешь и отмечаешь что-то новое.

4.4K viewsedited 17:46

Dealer.AI

Чегой-то тут у нас. Stargate make's great again?

https://cdn.openai.com/o3-mini-system-card.pdf

3.9K viewsedited 18:59

Dealer.AI

Чегой-то тут у нас. Stargate make's great again? https://cdn.openai.com/o3-mini-system-card.pdf

Крч,бро @drain_er тут поспрашал надежных экспертов мнение...

💳

Please open Telegram to view this post

VIEW IN TELEGRAM

3.3K viewsedited 19:18

Dealer.AI

Про методы оптимизации, Дядин магистерский диссер и соревки в стиле Санта.

Закончился очередной новогодний фан от Гугла в виде традиционной соревки Santa2024.

В этот раз задача была простой (но Дядя не совсем согласен) и замешаны даже LLM. В общем, надо было делать перестановки заданных слов в фразах чтобы минимизировать перплексию в Gemma2-9b. Т.е. по сути, у нас модель - это среда, порождающая награду/функцию цели.

Сама задача похожа на проблему о перестановках/назначениях. У вас всегда есть фиксированный набор слов и позиций для них, как будто бы вы ищете позицию-работника и слово для него, а ёмкость труда есть итоговая перплексия.
Кстати, только что, мы декомпозировали задачу в известную постановку и тогда мы понимаем какой аппарат для решения нам нужен. Ввиду того,что это задача комбинаторной оптимизации можно пребегнуть к :

- Методам локального поиска (он же жадный алгоритм)
- Добавить методы рандомизации Монте-Карло, ака глобальный поиск.
- К метаэвристикам аля генетика, роевые методы (пчелы, рыбы, муравьи) и тп. Такие методы являются гибридом глобального и локального поиска.

Обычно такие методы гибридизируют еще с поиском с запретом, он же Табу, или поиском с ~~развратом~~ возвратом он же Отжиг. Метод с запретом имеет память в виде табу списка. Это может быть локальная память или глобальная. Если память локальная,то мы не возвращаемся к М последним решениям, если глобальная то туда "навсегда" вписываются самые плохие ходы. В случае с возвратом, мы с некоторой вероятностью просто делаем шаг назад от текущего решения к его предку. Цель перепрыгнуть локальный оптимум и избежать застреваний. Такую фишку можно включать если вы на К шагов застряли.

А еще очень важно правильно векторизовать задачку, в данном случае у вас есть вектор позиции слов, в каждой позиции-ячейке у вас лежит токен-слово. Чтобы сделать перестановку ее еще называют swap окрестностью, вы также можете за один шаг менять 2 слова местами в ячейке или сразу делать К замен подряд. Тоже своего рода поиск локально или в глубину.

Вопрос что выбрать лучше? Ответ: к сожалению,нет золотой пули, остается пробовать разные подходы и комбинации.

Итого в соревновании выйграли подходы с отжигом, однако, мне, как человеку, защитившему магу по оптам ии, кажется, что можно было сделать больше экспериментов и получить оригинальное решение.

Вот тут еще выжимка с топ решений.
https://www.group-telegram.com/pseudolabeling/225

Кстати, решение можно использовать для атак на модели, а также для улучшения робастности/устойчивости моделей.

Запрети мне псевдолейблить

🎅 Santa 2024 Top-1 🎅

Описание задачи
Участникам предлагалось решить достаточно простую задачу:
Переставить фиксированный набор слов так, чтобы итоговая последовательность минимизировала перплексию модели Gemma-2-9b.
При этом можно было использовать только…

3.5K viewsedited 17:10

Dealer.AI

Исследование Anomalous tokens в DeepSeek v3/r1.

«Аномальные», «сбойные» или «невыговариваемые» токены в LLM — это те, которые вызывают странное поведение или иным образом не ведут себя как обычный текст.

Впервые это было обнаружено в работе по GPT-2 и GPT-3. Обнаружение таких токенов помогает понять причины галлюцинаций и сбивчивого поведения, а также потенциально, точечно влиять на устойчивость путем целевого дообучения таких токенов. Что порождает стабильность и ожидаемое поведение.

Автор выделяет токены довольно просто - при помощи промптинга. В работе исследуются: процесс токены, фрагментарные токены (раскрываются в длинном контексте) , Namee токены и аналоги, non English токены и "специальные" токены и др. Советую прочитать исследование, там и так все доступно описано:

https://outsidetext.substack.com/p/anomalous-tokens-in-deepseek-v3-and

Upd. В комментариях подсказывают статью.

Outside Text

Anomalous Tokens in DeepSeek-V3 and r1

A first attempt at identifying and cataloging DeepSeek's glitched tokens

11.4K viewsedited 18:57

Dealer.AI

Forwarded from Агенты ИИ | AGI_and_RL

Ребятки из HF выкатили небольшой постик по текущему прогрессу с Open-R1

https://huggingface.co/blog/open-r1/update-1

huggingface.co

Open-R1: Update #1

A Blog post by Open R1 on Hugging Face

4.5K views12:34

Dealer.AI

О, кажется, Антропики читают Дядю. 😎

Please open Telegram to view this post

VIEW IN TELEGRAM

4.8K viewsedited 17:25

Dealer.AI

Forwarded from addmeto (Grigory Bakunov)

Anthropic оказывается довольно долгое время уже работают над использованием классификаторов для борьбы против джейлбрейков.

Напомню, почти все большие языковые модели содержат некоторую цензуру, им запрещено говорить на некоторые темы. Для обхода этой цензуры постоянно появляются "джейлбрейки" - такие хитрые методы сформулировать запрос так, чтобы всё же получить ответ.

Anthropic вроде бы раньше пытались сделать так, чтобы сама модель отказывалась говорить и думать на неприятные темы, однако видимо сдались - теперь они двигаются в сторону классификаторов, т.е. небольших подсистем, понимающих что в запросе содержится джейлбрейк или в ответе нейронки есть что-то неправильное. https://shrtdb.com/6867a18b-c418-4ed6-8e4c-3f7d1d0829b8

Shrtdb

shrtdb :: Constitutional Classifiers: Defending against universal jailbreaks

A new paper from the Anthropic Safeguards Research Team proposes a method for protecting AI models a

6.1K views17:25

Dealer.AI

Forwarded from Stas Milykh Day by day

AGI achieved internally

4.6K views12:22

Dealer.AI

AGI achieved internally

Продолжаем. Чет навеяло.

Немного вечного ;)

5.3K viewsedited 09:18

Dealer.AI

Please open Telegram to view this post

VIEW IN TELEGRAM

5.5K viewsedited 20:26

Dealer.AI

https://x.com/sama/status/1889755723078443244?s=46

7.5K views17:21

2025/02/24 23:32:18
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.group-telegram.com/buyppe/webview?embed=1" title="Channel Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>