gonzo_ML Telegram Group

Парето фронтир с ценами и перформансом LLM на Chatbot Arena

https://lmarena.ai/?price

3.7K views09:09

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
Статья: https://arxiv.org/abs/2501.12948
Репа: https://github.com/deepseek-ai/DeepSeek-R1

Аламмар Аламмаром (https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1), но всё-таки пару слов про DeepSeek-R1. Базовую DeepSeek-V3 разобрали здесь (https://www.group-telegram.com/gonzo_ML.com/3292) и здесь (https://www.group-telegram.com/gonzo_ML.com/3312).

R1 — это reasoning модель, аналогичная OpenAI o1/o3, Google Gemini 2.0 Flash Thinking или Alibaba Cloud Qwen QwQ. Идея reasoning моделей в том, что вместо того чтобы сразу выдать ответ, модель сначала проводит некоторые рассуждения в духе Chain-of-Thought (CoT, https://www.group-telegram.com/gonzo_ML.com/1885), генеря кучу токенов с цепочками рассуждений, и лишь затем выдаёт финальный ответ. Таким образом, если раньше весь скейлинг моделей происходил на уровне компьюта во время обучения (берём больше, кидаем дальше — модель побольше и обучение подольше), то теперь модели можно дать “поразмышлять” подольше уже в inference time. Открылось новое измерения для масштабирования моделей — эра Test-time compute (https://www.group-telegram.com/gonzo_ML.com/3175).

DeepSeek-R1 — это, кажется, лучшая из открытых моделей с reasoning на сегодня, вполне конкурирующая с лучшими коммерческими. Гонка запущена, в ближайшие месяцы появятся кучи новых моделей, в том числе более скромного размера с ризонингом. Собственно уже началось, например, s1 (https://arxiv.org/abs/2501.19393).

Также можно сказать, что в NLP снова начинает работать RL.

Что именно сделано в работе про R1?

Главное достижение, мне кажется, примерно аналогично AlphaZero (и называется соответственно DeepSeek-R1-Zero): авторы показали, что для обучения ризонингу не обязательно иметь 100500 примеров для SFT, эти способности неплохо выучиваются с помощью large-scale RL, и можно вообще обойтись без “человеческих демонстраций” в виде SFT. Но если помочь cold start’у небольшим количеством SFT с хорошими примерами, то всё ещё лучше.

В качестве базовой модели взята DeepSeek-V3-Base, модель после Pre-training, но до Post-training, то есть без SFT и RL.

=== Начнём с DeepSeek-R1-Zero.

В качестве RL алгоритма взяли Group Relative Policy Optimization (GRPO), использовавшийся в DeepSeek-V3 (https://www.group-telegram.com/gonzo_ML.com/3313) и DeepSeekMath (https://arxiv.org/abs/2402.03300). Помните, что этот подход позволяет сэкономить на модели критика, которая обычно такого же размера, что и полиси модель.

Reward моделируется через систему на правилах, то есть вроде как ещё минус одна тяжёлая модель. Это выглядит аналогично Rule-based RM из пост-обучения DeepSeek-V3.

Используется два типа наград:

1) Accuracy rewards: определяют, корректен ответ или нет. В случае математических задач или кодирования это несложно.

2) Format rewards: следит за соответствием формата “мыслительного процесса”, он должен быть внутри тегов ‘<think>’ и ‘</think>’.

Neural-based RM не использовалась, потому что подвержена reward hacking, требует больших дополнительных ресурсов и вообще усложняет процесс обучения.

Используют довольно прямолинейный промпт с CoT, который требует от модели сначала подумать, а потом выдать ответ.

R1-Zero довольно неплохо прогрессирует в процессе обучения, на примере AIME 2024 за 8000 шагов добирается до качества не сильно позади OpenAI o1-0912 и выше o1-mini. Добавление мажоритарного голосования сильно повышает качество (в статье репортят результат с 64 ответами).

Подход Zero с чистым RL без SFT позволяет пронаблюдать, как модель эволюционирует по ходу обучения, и отдельный график показывает стабильный рост длины ответа. То есть модель сама выучивает, что думать дольше полезно. Так, спонтанно возникают способности к рефлексии (когда модель переоценивает предыдущие шаги) и исследование альтернативных подходов. Ничего этого заранее заложено не было.

Очень популярным стал пресловутый Aha Moment, когда модель научилась переобдумывать ответ, да ещё и сделала это очень антропоморфно.

2.8K viewsedited 21:20