Telegram Group & Telegram Channel
​​DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Громкая статья от китайцев про модели DeepSeek-R1-Zero и DeepSeek-R1. DeepSeek-R1-Zero обучена исключительно на RL без SFT и демонстрирует отличные способности к reasoning. Однако у неё есть проблемы: плохая читаемость предсказаний и language mixing (прям вот так - текст на двух языках). DeepSeek-R1 решает эти проблемы благодаря multi-stage training и использованию cold-start data перед RL и достигает результаты сравнимые с OpenAI-o1-1217.

Плюс авторы выложили обе модели и шесть дистиллированных в open-source.

Кстати, первый автор в прошлом выиграл много соревнований по ML - возможно это внесло свой вклад.

Paper
Project
Hugging Face page
Code

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview



group-telegram.com/datastorieslanguages/361
Create:
Last Update:

​​DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Громкая статья от китайцев про модели DeepSeek-R1-Zero и DeepSeek-R1. DeepSeek-R1-Zero обучена исключительно на RL без SFT и демонстрирует отличные способности к reasoning. Однако у неё есть проблемы: плохая читаемость предсказаний и language mixing (прям вот так - текст на двух языках). DeepSeek-R1 решает эти проблемы благодаря multi-stage training и использованию cold-start data перед RL и достигает результаты сравнимые с OpenAI-o1-1217.

Плюс авторы выложили обе модели и шесть дистиллированных в open-source.

Кстати, первый автор в прошлом выиграл много соревнований по ML - возможно это внесло свой вклад.

Paper
Project
Hugging Face page
Code

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview

BY Data, Stories and Languages



❌Photos not found?❌Click here to update cache.


Share with your friend now:
group-telegram.com/datastorieslanguages/361

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Some privacy experts say Telegram is not secure enough And while money initially moved into stocks in the morning, capital moved out of safe-haven assets. The price of the 10-year Treasury note fell Friday, sending its yield up to 2% from a March closing low of 1.73%. In this regard, Sebi collaborated with the Telecom Regulatory Authority of India (TRAI) to reduce the vulnerability of the securities market to manipulation through misuse of mass communication medium like bulk SMS. "The inflation fire was already hot and now with war-driven inflation added to the mix, it will grow even hotter, setting off a scramble by the world’s central banks to pull back their stimulus earlier than expected," Chris Rupkey, chief economist at FWDBONDS, wrote in an email. "A spike in inflation rates has preceded economic recessions historically and this time prices have soared to levels that once again pose a threat to growth." Ukrainian President Volodymyr Zelensky said in a video message on Tuesday that Ukrainian forces "destroy the invaders wherever we can."
from hk


Telegram Data, Stories and Languages
FROM American