Telegram Group & Telegram Channel
Поскольку сейчас выходит тонна ресерча про то, как сварить свою ризонинг модель, решила здесь как-то суммировать то, что есть к настоящему времени. Первая пачка статей о том, как связаны между собой SFT-претрен и RL и вообще про то, при каких условиях ризонинг нам в чем-то помогает


🤔 Cognitive Behaviors that Enable Self-Improving Reasoners

Отличный разбор этой статьи уже был в Сиолошной, я из нее хочу выделить несколько моментов:

- Авторы описывают 4 вида когнитивных приемов, которые модели могут использовать, чтобы добиться лучших результатов при решении проблем: 1) делать шаг назад и пересматривать свой ответ, когда обнаруживается ошибка, 2) перепроверка промежуточных результатов, 3) дробление на подзадачи, 4) решение задачи "в обратную сторону", то есть, зная ответ, пытаться догадаться, какие шаги к нему привели
- У Qwen и без какого-либо дообучения в 62% процентов размышлений была самопроверка. В отличие от моделей семейства LLaMA, где такого почти не наблюдалось
- Для эксперимента авторы собрали примеры цепочек рассуждения Claude-3.5-Sonnet, в которых бы использовались описанные выше 4 приема, и после SFT-тренировки на них скоры LLaMA стали заметно выше Qwen
- Интересно при этом, что даже при тренировке на цепочках с ошибками (в одном из шагов или с неправильнмы ответом), качество итоговой модели практически никак не отличалось от той, что тренировалась только на "правильных" цепочках
- Аналогично проверяли гипотезу о том, не помогает ли просто длина ответа решать задачи лучше. То есть, видим ли мы улучшение только из-за того, что модель может рассуждать дольше, или из-за того, что в обучении было что-то полезное. Для этого также обучали модель на "пустых" chains-of-thought, где просто нужную длину добили каким-нибудь токеном (по аналогии со статьями про think tokens ранее, где модели как будто просто давали "время" подумать перед ответом). Это никакого прироста скоров не дало
- После SFT-тренировки модели также дообучали с помощью RL играть в Countdown. Там оказывалось, что RL больше "продвигает" наиболее эмпирически полезные для игры стратегии – верификацию и пересматривание ответа – и подавляет не особо нужные


1/2
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/def_model_train/1059
Create:
Last Update:

Поскольку сейчас выходит тонна ресерча про то, как сварить свою ризонинг модель, решила здесь как-то суммировать то, что есть к настоящему времени. Первая пачка статей о том, как связаны между собой SFT-претрен и RL и вообще про то, при каких условиях ризонинг нам в чем-то помогает


🤔 Cognitive Behaviors that Enable Self-Improving Reasoners

Отличный разбор этой статьи уже был в Сиолошной, я из нее хочу выделить несколько моментов:

- Авторы описывают 4 вида когнитивных приемов, которые модели могут использовать, чтобы добиться лучших результатов при решении проблем: 1) делать шаг назад и пересматривать свой ответ, когда обнаруживается ошибка, 2) перепроверка промежуточных результатов, 3) дробление на подзадачи, 4) решение задачи "в обратную сторону", то есть, зная ответ, пытаться догадаться, какие шаги к нему привели
- У Qwen и без какого-либо дообучения в 62% процентов размышлений была самопроверка. В отличие от моделей семейства LLaMA, где такого почти не наблюдалось
- Для эксперимента авторы собрали примеры цепочек рассуждения Claude-3.5-Sonnet, в которых бы использовались описанные выше 4 приема, и после SFT-тренировки на них скоры LLaMA стали заметно выше Qwen
- Интересно при этом, что даже при тренировке на цепочках с ошибками (в одном из шагов или с неправильнмы ответом), качество итоговой модели практически никак не отличалось от той, что тренировалась только на "правильных" цепочках
- Аналогично проверяли гипотезу о том, не помогает ли просто длина ответа решать задачи лучше. То есть, видим ли мы улучшение только из-за того, что модель может рассуждать дольше, или из-за того, что в обучении было что-то полезное. Для этого также обучали модель на "пустых" chains-of-thought, где просто нужную длину добили каким-нибудь токеном (по аналогии со статьями про think tokens ранее, где модели как будто просто давали "время" подумать перед ответом). Это никакого прироста скоров не дало
- После SFT-тренировки модели также дообучали с помощью RL играть в Countdown. Там оказывалось, что RL больше "продвигает" наиболее эмпирически полезные для игры стратегии – верификацию и пересматривание ответа – и подавляет не особо нужные


1/2

BY я обучала одну модель




Share with your friend now:
group-telegram.com/def_model_train/1059

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram users are able to send files of any type up to 2GB each and access them from any device, with no limit on cloud storage, which has made downloading files more popular on the platform. In the past, it was noticed that through bulk SMSes, investors were induced to invest in or purchase the stocks of certain listed companies. For example, WhatsApp restricted the number of times a user could forward something, and developed automated systems that detect and flag objectionable content. "Someone posing as a Ukrainian citizen just joins the chat and starts spreading misinformation, or gathers data, like the location of shelters," Tsekhanovska said, noting how false messages have urged Ukrainians to turn off their phones at a specific time of night, citing cybersafety. Additionally, investors are often instructed to deposit monies into personal bank accounts of individuals who claim to represent a legitimate entity, and/or into an unrelated corporate account. To lend credence and to lure unsuspecting victims, perpetrators usually claim that their entity and/or the investment schemes are approved by financial authorities.
from us


Telegram я обучала одну модель
FROM American