Telegram Group & Telegram Channel
Думки Дяди про Huge DeepSeek и это вот все.

С одной стороны, я рад, что мои прогнозы (и не только лишь мои) про демократизацию AI (в первую очередь модели, код в open source) сбываются.
С другой стороны мы приходим снова к тому, что мало просто закидать компьютом обучение, отскейлить capacity по весам. Порой надо и мозг же включать в части оптимизации обучения (как они хакнули H800, красавцы !?), в части использования базовых уже известных хорошо работающих подходов (как оттолкнулись от llama и др. круто), и помножив это на хорошо собранный датасет и дизайн обучения,можно получить оказывается конкурентное решение.  А если еще свое привнести улучшение в архитектуре, в дизайне экспериментов и тп,доказанное абляциями, разумеется, то можно вообще претендовать уже на свой инкремент, а не тупо форк го бррр.
И тут же,  все чаще слышно: "да зачем мне ваше рнд, ща форкну, датку подготовлю гуд и го брр". Недаром уже HF сделало Open R1 проект,чтобы воспроизвести решение. Но вот вам и пример с DeepSeek на что надо еще и рнд шурупить. Пока вы форкаете код публичных лидеров, вы идете goflow за лидером, но вы не обгоняете их, а лишь следуете по его следам, а он, когда выложил что-то в открытый доступ,уже давно делает еще лучшее решение. А чтобы догнать и обогнать хорошо бы потратиться на R часть.
Да конечно, ничего магического нет в том,что сделали китайцы. Собрали все,что работает вместе, все статьи в доступе, код тоже, архитектуры - до всего дотянуться реально. Добавили пару своих фишек, хакнули компьют и присыпали своей модификацией ppo. Но под капотом еще у нас абляции, поиск лучшего комбо и затраты на получение той работающей формулы grpo.

Тут же напомню, как появлялись, к примеру последние интересные решения в разных областях DL:

- FILIP: берем CLIP вспоминаем про ColBERT loss изменяем нарезку и интеракции эмбов с "токенов изображенй и текста" как там и получаем инкремент.
- SimPO из DPO: создатели идут от базы, что в лоссе у нас используется pair-ranking loss с сигмоид релаксацией. А тк у нас есть еще и триплет лосс с зазором, без которого это как раз-таки pair ranking loss, то давайте это добавим в dpo. Потом уберем штраф к референс модели и накинем норму взамен.
- Пример улучшения обучения GPT2 с учётом ухода от Relu , к ReLU^2 и заменой LayerNorm на RmsNorm. Как следствие ускорение обучения (это когда за меньшее число эпох сходимся). Кстати авторы Qwen ту же нормализацию микстят с SwiGLU.
- Про улучшение PPO в GRPO советую почитать у моего товарища по цеху. А еще прикольное тут.
... И тп. и тд.

А теперь посмотрите на видимый прогресс llm с тч зрения дизайна экспов: next token prediction->instruct tuning->rlhf->CoT/ToT/multihop->то же самое с RL->тоже самое с self refine/RLAIF/SelfPlaying. Чуваки двигаются инкерементально, берут базовые/уже известные блоки и микстуют их, находят работающие комбо и получают прирост. Естественно сначала из прошлой итерации выжав все по-максимуму.
Да согласен,что где-то роляет чисто инженерный подход, зачастую, это ребята с опытом "прода" (у r1 вообще хэджфонд, кванты и тп) особенно в области оптимизации инференса или обучения (привет заход под CUDA/c++). Если же говорить о дизайне экспериментов:новых методах/лоссах, сэмплинге, токенайзере, архитектурных инкрементах, разумеется без РнД никуда. Вопрос остается в качестве и количестве единиц.

Если вы немаленький игрок на рынке, с ресурсами и желанием вложиться в прорыв, но сейчас делаете go flow, с блэкджеком и форками, DeepSeek пример того, как можно "сменить лидера". It's time подсидеть того самого соседа (внутри или снаружи), тк эти ребята доказали,что это возможно. Просто сконцентрируйтесь не на тех задачах,что дают вам +2-3% к тому, что уже есть, а приоритизируйте самые, по-вашему мнению, драйвящие фичи наверх. Возможно и стоит разобрать на косточки решение китайцев,но лишь для того,чтобы в багаж получить новые работающие хинты и собрать из них свой лего, улучшить их и возможно уже вы завтра станете game changers. Если конечно оно Вам надо...

Всем stay tuned. 🦾



group-telegram.com/dealerAI/1091
Create:
Last Update:

Думки Дяди про Huge DeepSeek и это вот все.

С одной стороны, я рад, что мои прогнозы (и не только лишь мои) про демократизацию AI (в первую очередь модели, код в open source) сбываются.
С другой стороны мы приходим снова к тому, что мало просто закидать компьютом обучение, отскейлить capacity по весам. Порой надо и мозг же включать в части оптимизации обучения (как они хакнули H800, красавцы !?), в части использования базовых уже известных хорошо работающих подходов (как оттолкнулись от llama и др. круто), и помножив это на хорошо собранный датасет и дизайн обучения,можно получить оказывается конкурентное решение.  А если еще свое привнести улучшение в архитектуре, в дизайне экспериментов и тп,доказанное абляциями, разумеется, то можно вообще претендовать уже на свой инкремент, а не тупо форк го бррр.
И тут же,  все чаще слышно: "да зачем мне ваше рнд, ща форкну, датку подготовлю гуд и го брр". Недаром уже HF сделало Open R1 проект,чтобы воспроизвести решение. Но вот вам и пример с DeepSeek на что надо еще и рнд шурупить. Пока вы форкаете код публичных лидеров, вы идете goflow за лидером, но вы не обгоняете их, а лишь следуете по его следам, а он, когда выложил что-то в открытый доступ,уже давно делает еще лучшее решение. А чтобы догнать и обогнать хорошо бы потратиться на R часть.
Да конечно, ничего магического нет в том,что сделали китайцы. Собрали все,что работает вместе, все статьи в доступе, код тоже, архитектуры - до всего дотянуться реально. Добавили пару своих фишек, хакнули компьют и присыпали своей модификацией ppo. Но под капотом еще у нас абляции, поиск лучшего комбо и затраты на получение той работающей формулы grpo.

Тут же напомню, как появлялись, к примеру последние интересные решения в разных областях DL:

- FILIP: берем CLIP вспоминаем про ColBERT loss изменяем нарезку и интеракции эмбов с "токенов изображенй и текста" как там и получаем инкремент.
- SimPO из DPO: создатели идут от базы, что в лоссе у нас используется pair-ranking loss с сигмоид релаксацией. А тк у нас есть еще и триплет лосс с зазором, без которого это как раз-таки pair ranking loss, то давайте это добавим в dpo. Потом уберем штраф к референс модели и накинем норму взамен.
- Пример улучшения обучения GPT2 с учётом ухода от Relu , к ReLU^2 и заменой LayerNorm на RmsNorm. Как следствие ускорение обучения (это когда за меньшее число эпох сходимся). Кстати авторы Qwen ту же нормализацию микстят с SwiGLU.
- Про улучшение PPO в GRPO советую почитать у моего товарища по цеху. А еще прикольное тут.
... И тп. и тд.

А теперь посмотрите на видимый прогресс llm с тч зрения дизайна экспов: next token prediction->instruct tuning->rlhf->CoT/ToT/multihop->то же самое с RL->тоже самое с self refine/RLAIF/SelfPlaying. Чуваки двигаются инкерементально, берут базовые/уже известные блоки и микстуют их, находят работающие комбо и получают прирост. Естественно сначала из прошлой итерации выжав все по-максимуму.
Да согласен,что где-то роляет чисто инженерный подход, зачастую, это ребята с опытом "прода" (у r1 вообще хэджфонд, кванты и тп) особенно в области оптимизации инференса или обучения (привет заход под CUDA/c++). Если же говорить о дизайне экспериментов:новых методах/лоссах, сэмплинге, токенайзере, архитектурных инкрементах, разумеется без РнД никуда. Вопрос остается в качестве и количестве единиц.

Если вы немаленький игрок на рынке, с ресурсами и желанием вложиться в прорыв, но сейчас делаете go flow, с блэкджеком и форками, DeepSeek пример того, как можно "сменить лидера". It's time подсидеть того самого соседа (внутри или снаружи), тк эти ребята доказали,что это возможно. Просто сконцентрируйтесь не на тех задачах,что дают вам +2-3% к тому, что уже есть, а приоритизируйте самые, по-вашему мнению, драйвящие фичи наверх. Возможно и стоит разобрать на косточки решение китайцев,но лишь для того,чтобы в багаж получить новые работающие хинты и собрать из них свой лего, улучшить их и возможно уже вы завтра станете game changers. Если конечно оно Вам надо...

Всем stay tuned. 🦾

BY Dealer.AI




Share with your friend now:
group-telegram.com/dealerAI/1091

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The Russian invasion of Ukraine has been a driving force in markets for the past few weeks. The original Telegram channel has expanded into a web of accounts for different locations, including specific pages made for individual Russian cities. There's also an English-language website, which states it is owned by the people who run the Telegram channels. Ukrainian President Volodymyr Zelensky said in a video message on Tuesday that Ukrainian forces "destroy the invaders wherever we can." "Russians are really disconnected from the reality of what happening to their country," Andrey said. "So Telegram has become essential for understanding what's going on to the Russian-speaking world." In December 2021, Sebi officials had conducted a search and seizure operation at the premises of certain persons carrying out similar manipulative activities through Telegram channels.
from no


Telegram Dealer.AI
FROM American