Telegram Group & Telegram Channel
Еще после прочтения s1 может возникнуть вопрос, нужен ли вообще RL, если можно классно обучаться в SFT. Тут четкого ответа у меня нет, но есть две статьи:

🌟 Competitive Programming with Large Reasoning Models, статья от OAI. Там они сначала с помощью некоторых костылей заставляют o1 решать задачи из International Olympiad in Informatics 2024. Костыли включали в себя реранкинг, коорый из 10к сгенерированных решений выбирал 50 лучших, и дополнительный кластеринг этих решений, чтобы набирались более разнообразные варианты. Это все позволило o1 сместиться из 89 перцентиля участников в 98. Но потом оказалось, что простая советская o3 сразу выбивает 99.8 перцентиль, без дополнительных ухищрений at test-time, просто за счет RL во время обучения. Конечно интерпретировать результаты OAI тут сложно, потому что мы почти ничего не знаем о тренировке o3

🌟 Scaling Test-Time Compute Without Verification or RL is Suboptimal. Тут уже более обстоятельно (с кучей формул) авторы утверждают, что RL лучше дистиляции на reasoning traces, если генерации модели достаточно гетерогенны. Гетерогенность понимается здесь в том смысле, что некоторые задачи модель решает верно и достаточно быстро, а для других ей нужно гораздо больше времени, и следовательно здесь модели бы помог более эксплицитный сигнал в виде какого-то реварда. Еще при гетерогенности у модели появляется шанс случайно наткнуться на хорошее (better than average) решение, и RL позволяет развивать в моделях это свойство, в отличие от обучения в SFT. В статье есть и эмпирические доказательства, но не особенно масштабные, чтобы можно было сказать, что это правда всегда и везде

А еще кажется есть пруф, что совсем маленькие модели <3B плохо учатся на дистилированных длинных reasoning traces от больших моделей, а вот с ~7B имеет смысл такое делать

~~~~~~~~~
В следующий раз я вернусь с новыми статьями, и надеюсь не через три месяца 🧇
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/def_model_train/1051
Create:
Last Update:

Еще после прочтения s1 может возникнуть вопрос, нужен ли вообще RL, если можно классно обучаться в SFT. Тут четкого ответа у меня нет, но есть две статьи:

🌟 Competitive Programming with Large Reasoning Models, статья от OAI. Там они сначала с помощью некоторых костылей заставляют o1 решать задачи из International Olympiad in Informatics 2024. Костыли включали в себя реранкинг, коорый из 10к сгенерированных решений выбирал 50 лучших, и дополнительный кластеринг этих решений, чтобы набирались более разнообразные варианты. Это все позволило o1 сместиться из 89 перцентиля участников в 98. Но потом оказалось, что простая советская o3 сразу выбивает 99.8 перцентиль, без дополнительных ухищрений at test-time, просто за счет RL во время обучения. Конечно интерпретировать результаты OAI тут сложно, потому что мы почти ничего не знаем о тренировке o3

🌟 Scaling Test-Time Compute Without Verification or RL is Suboptimal. Тут уже более обстоятельно (с кучей формул) авторы утверждают, что RL лучше дистиляции на reasoning traces, если генерации модели достаточно гетерогенны. Гетерогенность понимается здесь в том смысле, что некоторые задачи модель решает верно и достаточно быстро, а для других ей нужно гораздо больше времени, и следовательно здесь модели бы помог более эксплицитный сигнал в виде какого-то реварда. Еще при гетерогенности у модели появляется шанс случайно наткнуться на хорошее (better than average) решение, и RL позволяет развивать в моделях это свойство, в отличие от обучения в SFT. В статье есть и эмпирические доказательства, но не особенно масштабные, чтобы можно было сказать, что это правда всегда и везде

А еще кажется есть пруф, что совсем маленькие модели <3B плохо учатся на дистилированных длинных reasoning traces от больших моделей, а вот с ~7B имеет смысл такое делать

~~~~~~~~~
В следующий раз я вернусь с новыми статьями, и надеюсь не через три месяца 🧇

BY я обучала одну модель


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/def_model_train/1051

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"The inflation fire was already hot and now with war-driven inflation added to the mix, it will grow even hotter, setting off a scramble by the world’s central banks to pull back their stimulus earlier than expected," Chris Rupkey, chief economist at FWDBONDS, wrote in an email. "A spike in inflation rates has preceded economic recessions historically and this time prices have soared to levels that once again pose a threat to growth." The news also helped traders look past another report showing decades-high inflation and shake off some of the volatility from recent sessions. The Bureau of Labor Statistics' February Consumer Price Index (CPI) this week showed another surge in prices even before Russia escalated its attacks in Ukraine. The headline CPI — soaring 7.9% over last year — underscored the sticky inflationary pressures reverberating across the U.S. economy, with everything from groceries to rents and airline fares getting more expensive for everyday consumers. Under the Sebi Act, the regulator has the power to carry out search and seizure of books, registers, documents including electronics and digital devices from any person associated with the securities market. Also in the latest update is the ability for users to create a unique @username from the Settings page, providing others with an easy way to contact them via Search or their t.me/username link without sharing their phone number. In December 2021, Sebi officials had conducted a search and seizure operation at the premises of certain persons carrying out similar manipulative activities through Telegram channels.
from us


Telegram я обучала одну модель
FROM American