Telegram Group & Telegram Channel
​​DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Громкая статья от китайцев про модели DeepSeek-R1-Zero и DeepSeek-R1. DeepSeek-R1-Zero обучена исключительно на RL без SFT и демонстрирует отличные способности к reasoning. Однако у неё есть проблемы: плохая читаемость предсказаний и language mixing (прям вот так - текст на двух языках). DeepSeek-R1 решает эти проблемы благодаря multi-stage training и использованию cold-start data перед RL и достигает результаты сравнимые с OpenAI-o1-1217.

Плюс авторы выложили обе модели и шесть дистиллированных в open-source.

Кстати, первый автор в прошлом выиграл много соревнований по ML - возможно это внесло свой вклад.

Paper
Project
Hugging Face page
Code

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview



group-telegram.com/datastorieslanguages/361
Create:
Last Update:

​​DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Громкая статья от китайцев про модели DeepSeek-R1-Zero и DeepSeek-R1. DeepSeek-R1-Zero обучена исключительно на RL без SFT и демонстрирует отличные способности к reasoning. Однако у неё есть проблемы: плохая читаемость предсказаний и language mixing (прям вот так - текст на двух языках). DeepSeek-R1 решает эти проблемы благодаря multi-stage training и использованию cold-start data перед RL и достигает результаты сравнимые с OpenAI-o1-1217.

Плюс авторы выложили обе модели и шесть дистиллированных в open-source.

Кстати, первый автор в прошлом выиграл много соревнований по ML - возможно это внесло свой вклад.

Paper
Project
Hugging Face page
Code

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview

BY Data, Stories and Languages




Share with your friend now:
group-telegram.com/datastorieslanguages/361

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

For tech stocks, “the main thing is yields,” Essaye said. For example, WhatsApp restricted the number of times a user could forward something, and developed automated systems that detect and flag objectionable content. "Markets were cheering this economic recovery and return to strong economic growth, but the cheers will turn to tears if the inflation outbreak pushes businesses and consumers to the brink of recession," he added. In 2018, Russia banned Telegram although it reversed the prohibition two years later. Founder Pavel Durov says tech is meant to set you free
from us


Telegram Data, Stories and Languages
FROM American