group-telegram.com/dealerAI/925
Last Update:
Generative Reward Modeling на пути к Q-STaR или как подружить RLHF и RLAIF.
В этом обзоре мы рассмотрим уже известные многим механизмы дообучения моделей предпочтениям: RLHF , RLAIF. Данный пост основан на работе создателей спасительного DPO.
Немного предыстории. Когда мы говорим про обучение с обратной связью кожаных, ака RLHF — мы держим в уме процесс, в котором на основе предпочтений людей обучается или reward модель и ppo или же DPO прямой тюн LLM.
При этом, также, было позже предложено использовать RLAIF, на основе self-rewarding/critic свойств моделей. В т.ч. эти свойства позволяют вам заводить LLM-as-Judge оценки моделей. В результате RLAIF подхода, модель награды/dpo учится предпочтениям на основе иной LLM или даже их комитета.
Однако в каждой из методологий, есть свои недостатки:
1. Reward модели обученные на rlhf подходе плохо срабатывают на out-of-domain примерах, т.е. на контекстах, которые не попали в обучающую выборку.
2. Reward модели на основе rlaif имеют недостаточную корреляцию с предпочтениями человека.
3. Использование только DPO моделей в последних исследованиях может не дать нужного результата. Та же Llama3 была обучена на гибридном подходе DPO и Reward.
Авторами DPO, предлагается новый метод микста обоих подходов AI and Human feedback. Вместо обучения модели Bradley-Terry, ака reward модель дающая оценку генерации в виде ранга, учится GenRM модель. GenRM учится, непосредственно, сравнивать вероятности next tokens между двумя потенциальными ответами y1,y2 для промпта x (в работе это зовут индикатор токенами).
Примечание авторов, что LLM, на самом деле, тут учится как классификатор в сетапе next-token-prediction.
Вы думаете, ребяты на этом остановились? Нет. Далее авторы вводят новый концепт CoT-GenRM с рацио. Т. е. по сути добавляют цепочку рассуждений, прежде чем выбрать индикатор токен.
Но и это еще не все. Далее уже включается мифический Self taught reasoner, кодовое имя STaR (ага да ничего не напоминает?) Тут конечно у людей совсем выпал снег и они делают просеивание human feedback сета через CoT-GenRM. Цель в том, чтобы получить рассуждения модели и отсеить те из них, что не приводят к предпочтительным ответам из данного сета. Далее на таких фильтрованных рассуждениях происходит сессия из К итераций SFT. После чего получают CoT-GenRM-STaR (черт они скоро начнут как в китайских авто расширять имена моделек).
Думаете это уже конец? А фиг вам, снег не только выпал, но уже и в голову ударил. Тк. мы не использовали плохие рассуждения, авторы предлагают два хака взять их в оборот:
1. Подложить модели подсказку в виде правильного ответа и попросить обосновать его. Тогда они получат CoT-GenRM-STaR-ratio модель. Тьфу на вас нечистыя...
2. Или же использовать неверные рассуждения как негативы в DPO. И че вы думаете? Да будет CoT-GenRM-STaR-DPO.
Фух, но вот теперь точно все. В качестве замеров предлагается reward-bench на котором показаны: reward Бредли-Терри, GenRM, LLm as a judge, STaR SfT, STaR DPO, STaR-ratio. Где почти все подходы опережают классик reward, однако в чит-чат оси разница не значима.
В заключении.
На самом деле у Дяди главный вопрос. Зачем городить столько этапов? Ведь каждый этап это $ на доп эксперимент. Плюс видно, что для некоторых осей reward-bench и во все можно остановиться или на Бредли Терри или на первых этапах GenRM, не идя в STaR. С другой стороны если разрыв в сумме по бенчу отбивает все затраченные усилия. Why not. Но это уже решать Вам, юзерам.
BY Dealer.AI

Share with your friend now:
group-telegram.com/dealerAI/925