group-telegram.com/datastorieslanguages/361
Last Update:
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
Громкая статья от китайцев про модели DeepSeek-R1-Zero и DeepSeek-R1. DeepSeek-R1-Zero обучена исключительно на RL без SFT и демонстрирует отличные способности к reasoning. Однако у неё есть проблемы: плохая читаемость предсказаний и language mixing (прям вот так - текст на двух языках). DeepSeek-R1 решает эти проблемы благодаря multi-stage training и использованию cold-start data перед RL и достигает результаты сравнимые с OpenAI-o1-1217.
Плюс авторы выложили обе модели и шесть дистиллированных в open-source.
Кстати, первый автор в прошлом выиграл много соревнований по ML - возможно это внесло свой вклад.
Paper
Project
Hugging Face page
Code
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
BY Data, Stories and Languages
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/KAD8oBOxVZzfS4MX23ybAQWXwF0bE5kI9JL97hNNiNPw3d3D3bEEEzfaQEz619h7xhoqgNci7a-Vgk-NIcKWLiGRJ_3BDXVzb21xUL3RUyq1gamxQxcukB6dwy8YBF8XeWrsS-qylwTvSbh1TSmJq2aae3_oc-Q_sffe9ayOw2fLEnw-kIa6RlPHKipbJutlcnqXirnX8TFArxWGimCcyWMSCprrFyKYC_HeS_pxircNskZs26SizIXWz9-nHFaW6G86MM_nlgoms6Scg0cdZKdOIevHaxrY_8pE7GHYmyz3Cp6-pNLa60CuhXRSLUZe7OKbryNrC12Iw2eO52zW0A.jpg)
Share with your friend now:
group-telegram.com/datastorieslanguages/361