​​DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Data, Stories and Languages

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Громкая статья от китайцев про модели DeepSeek-R1-Zero и DeepSeek-R1. DeepSeek-R1-Zero обучена исключительно на RL без SFT и демонстрирует отличные способности к reasoning. Однако у неё есть проблемы: плохая читаемость предсказаний и language mixing (прям вот так - текст на двух языках). DeepSeek-R1 решает эти проблемы благодаря multi-stage training и использованию cold-start data перед RL и достигает результаты сравнимые с OpenAI-o1-1217.

Плюс авторы выложили обе модели и шесть дистиллированных в open-source.

Кстати, первый автор в прошлом выиграл много соревнований по ML - возможно это внесло свой вклад.

Paper
Project
Hugging Face page
Code

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview

www.group-telegram.com/us/datastorieslanguages.com/361

1.2K viewsJan 27 at 05:03

group-telegram.com/datastorieslanguages/361

Create: 2025-01-27
Last Update: 2025-02-06 18:38:57

BY Data, Stories and Languages

Share with your friend now:
group-telegram.com/datastorieslanguages/361

Telegram | DID YOU KNOW?

​​DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning