Telegram Group & Telegram Channel
​​DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Громкая статья от китайцев про модели DeepSeek-R1-Zero и DeepSeek-R1. DeepSeek-R1-Zero обучена исключительно на RL без SFT и демонстрирует отличные способности к reasoning. Однако у неё есть проблемы: плохая читаемость предсказаний и language mixing (прям вот так - текст на двух языках). DeepSeek-R1 решает эти проблемы благодаря multi-stage training и использованию cold-start data перед RL и достигает результаты сравнимые с OpenAI-o1-1217.

Плюс авторы выложили обе модели и шесть дистиллированных в open-source.

Кстати, первый автор в прошлом выиграл много соревнований по ML - возможно это внесло свой вклад.

Paper
Project
Hugging Face page
Code

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview



group-telegram.com/datastorieslanguages/361
Create:
Last Update:

​​DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Громкая статья от китайцев про модели DeepSeek-R1-Zero и DeepSeek-R1. DeepSeek-R1-Zero обучена исключительно на RL без SFT и демонстрирует отличные способности к reasoning. Однако у неё есть проблемы: плохая читаемость предсказаний и language mixing (прям вот так - текст на двух языках). DeepSeek-R1 решает эти проблемы благодаря multi-stage training и использованию cold-start data перед RL и достигает результаты сравнимые с OpenAI-o1-1217.

Плюс авторы выложили обе модели и шесть дистиллированных в open-source.

Кстати, первый автор в прошлом выиграл много соревнований по ML - возможно это внесло свой вклад.

Paper
Project
Hugging Face page
Code

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview

BY Data, Stories and Languages




Share with your friend now:
group-telegram.com/datastorieslanguages/361

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"The result is on this photo: fiery 'greetings' to the invaders," the Security Service of Ukraine wrote alongside a photo showing several military vehicles among plumes of black smoke. In addition, Telegram now supports the use of third-party streaming tools like OBS Studio and XSplit to broadcast live video, allowing users to add overlays and multi-screen layouts for a more professional look. Andrey, a Russian entrepreneur living in Brazil who, fearing retaliation, asked that NPR not use his last name, said Telegram has become one of the few places Russians can access independent news about the war. It is unclear who runs the account, although Russia's official Ministry of Foreign Affairs Twitter account promoted the Telegram channel on Saturday and claimed it was operated by "a group of experts & journalists." Unlike Silicon Valley giants such as Facebook and Twitter, which run very public anti-disinformation programs, Brooking said: "Telegram is famously lax or absent in its content moderation policy."
from tr


Telegram Data, Stories and Languages
FROM American