group-telegram.com/dealerAI/252
Last Update:
Улучшенный метод RL для выравнивания LLM от DeepMind.
Reinforced Self-Training (ReST): A Simple algorithm for Aligning LLMs with Human Preferences Inspired by Growing Batch.
Данный метод посвящён проблеме онлайн обучения, а именно требованиям к данным для этого.
ReST состоит из двух циклов:
1. Внутренний цикл (Improve) улучшает политику для данного набора данных.
2. Внешний круг (Grow) расширяет набор данных, беря образцы из самой последней политики.
Grow: Чтобы дополнить обучающий набор данных, для каждого сценария создаются многочисленные выходные прогнозы с использованием политики языковой модели. Improve: тут ранжируют и фильтруют обогащенный набор данных, используя формулу оценки. В качестве функции оценки в своих исследованиях они используют модель вознаграждения за обучение, основанную на предпочтениях людей. Отфильтрованный набор данных корректирует языковую модель, используя целевую функцию offline RL. При увеличении порога фильтрации процесс повторяется. После этого на следующем шаге Grow используется окончательная внешняя политика.
При этом, авторы выделяют возможность в каждом круге политик использовать разнообразные и главное различные losses.
Также, можно назвать ряд других преимуществ, по сравнению с classic RLHF:
• Поскольку новые обучающие данные отбираются из улучшенной политики на этапе Grow, качество политики не ограничено качеством исходного набора данных (в отличие от автономного RL).
• Легко проверить качество данных и потенциально диагностировать проблемы с согласованием, такие как взлом вознаграждения, поскольку этапы роста и улучшения не связаны.
В качестве примера REST+ LLM выбрана задача машинного перевода. Подробнее можно почитать в статье.
BY Dealer.AI
Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260
Share with your friend now:
group-telegram.com/dealerAI/252