Telegram Group & Telegram Channel
[OpenAI InstructGPT & RLHF] Training language models to follow instructions with human feedback
Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe
Статья: https://arxiv.org/abs/2203.02155
Пост в блоге: https://openai.com/blog/instruction-following/
Model card: https://github.com/openai/following-instructions-human-feedback

Мы уже много раз упоминали RLHF (Reinforcement Learning from Human Feedback), на котором построены модели OpenAI семейства InstructGPT (включая ChatGPT), а также модели конкурирующих фирм типа Sparrow от DeepMind (https://www.group-telegram.com/no/gonzo_ML.com/1237). Надо разобрать эту классику.

Оригинальная цель работы -- alignment, выровнять поведение модели относительно интента пользователя. Под интентом в данном случае подразумевается как явное следование инструкциям (что запросил человек в промпте), так и неявные truthfulness, fairness, safety.

В OpenAI темой alignment занимается отдельная команда (https://openai.com/alignment/), их подход описан в этой статье (https://openai.com/blog/our-approach-to-alignment-research/). Вот дискуссия с обсуждением этого плана на AI alignment forum (https://www.alignmentforum.org/posts/FTk7ufqK2D4dkdBDr/notes-on-openai-s-alignment-plan). Отдельный вопрос, как это всё может переноситься на alignment сущностей умнее человека.

Если вдаваться в суть, то иерархия адаптации GPT-подобных моделей выглядит как-то так.

Во-первых, есть базовая модель GPT, обученная на каких-то достаточно универсальных и разнообразных данных. У моделей разных компаний эти наборы данных разные, хотя и пересекающиеся. Есть также специализированные версии GPT, обученные на специальных доменах, типа BioGPT от Microsoft (https://github.com/microsoft/BioGPT). Это всё предобученные модели (pre-trained models).

Дальше, предобученную модель можно уговаривать произвести нужный вам результат путём подбора правильного промпта. Это тот самый prompt-engineering. На выходе мы получаем prompt-tuned модель. Промпт-инжиниринг включает в себя добавление в промпт примеров решения нужной задачи, это тот самый few-shot learning через in-context learning, который основательно выстрелил после работы про GPT-3 (https://www.group-telegram.com/no/gonzo_ML.com/305). По сути это всё тот же промпт с добавленными примерами.

Другой параллельный способ улучшения модели, это supervised fine-tuning, когда модель дообучается на той же задаче языкового моделирования (предсказания следующего токена), что и оригинальная GPT, но на специальном тематическом датасете. Так, например, LaMDA (https://www.group-telegram.com/no/gonzo_ML.com/1229) дообучалась на примерах хороших по разным критериям диалогов.

Ну и наконец новый зверь в зоопарке, RLHF, также помогает получить более качественную модель, используя обучение с подкреплением, где в качестве сигнала для обучения выступают предпочтения человеков относительно разных генераций. Это далеко не первый пример использования RL, во многом у тех же авторов из OpenAI за пару лет до работы про InstructGPT была работа про суммаризацию с RL (https://openai.com/blog/learning-to-summarize-with-human-feedback/), а ещё раньше на NIPS 2017 года была совместная работа авторов из DeepMind и OpenAI под названием “Deep Reinforcement Learning from Human Preferences” (https://arxiv.org/abs/1706.03741).

Проблема применения RL для таких задач в том, что сигнал от людей собирать дорого, и большой его поток сложно обеспечить. Поэтому хотелось бы его на несколько порядков уменьшить, чтобы сделать применение RL реальным. В той работе 17 года предложили для этого использовать обучаемую на человеческих оценках reward function, которая дальше используется для предсказания награды агента. Функция не человек, её можно дёргать часто.



group-telegram.com/gonzo_ML/1277
Create:
Last Update:

[OpenAI InstructGPT & RLHF] Training language models to follow instructions with human feedback
Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe
Статья: https://arxiv.org/abs/2203.02155
Пост в блоге: https://openai.com/blog/instruction-following/
Model card: https://github.com/openai/following-instructions-human-feedback

Мы уже много раз упоминали RLHF (Reinforcement Learning from Human Feedback), на котором построены модели OpenAI семейства InstructGPT (включая ChatGPT), а также модели конкурирующих фирм типа Sparrow от DeepMind (https://www.group-telegram.com/no/gonzo_ML.com/1237). Надо разобрать эту классику.

Оригинальная цель работы -- alignment, выровнять поведение модели относительно интента пользователя. Под интентом в данном случае подразумевается как явное следование инструкциям (что запросил человек в промпте), так и неявные truthfulness, fairness, safety.

В OpenAI темой alignment занимается отдельная команда (https://openai.com/alignment/), их подход описан в этой статье (https://openai.com/blog/our-approach-to-alignment-research/). Вот дискуссия с обсуждением этого плана на AI alignment forum (https://www.alignmentforum.org/posts/FTk7ufqK2D4dkdBDr/notes-on-openai-s-alignment-plan). Отдельный вопрос, как это всё может переноситься на alignment сущностей умнее человека.

Если вдаваться в суть, то иерархия адаптации GPT-подобных моделей выглядит как-то так.

Во-первых, есть базовая модель GPT, обученная на каких-то достаточно универсальных и разнообразных данных. У моделей разных компаний эти наборы данных разные, хотя и пересекающиеся. Есть также специализированные версии GPT, обученные на специальных доменах, типа BioGPT от Microsoft (https://github.com/microsoft/BioGPT). Это всё предобученные модели (pre-trained models).

Дальше, предобученную модель можно уговаривать произвести нужный вам результат путём подбора правильного промпта. Это тот самый prompt-engineering. На выходе мы получаем prompt-tuned модель. Промпт-инжиниринг включает в себя добавление в промпт примеров решения нужной задачи, это тот самый few-shot learning через in-context learning, который основательно выстрелил после работы про GPT-3 (https://www.group-telegram.com/no/gonzo_ML.com/305). По сути это всё тот же промпт с добавленными примерами.

Другой параллельный способ улучшения модели, это supervised fine-tuning, когда модель дообучается на той же задаче языкового моделирования (предсказания следующего токена), что и оригинальная GPT, но на специальном тематическом датасете. Так, например, LaMDA (https://www.group-telegram.com/no/gonzo_ML.com/1229) дообучалась на примерах хороших по разным критериям диалогов.

Ну и наконец новый зверь в зоопарке, RLHF, также помогает получить более качественную модель, используя обучение с подкреплением, где в качестве сигнала для обучения выступают предпочтения человеков относительно разных генераций. Это далеко не первый пример использования RL, во многом у тех же авторов из OpenAI за пару лет до работы про InstructGPT была работа про суммаризацию с RL (https://openai.com/blog/learning-to-summarize-with-human-feedback/), а ещё раньше на NIPS 2017 года была совместная работа авторов из DeepMind и OpenAI под названием “Deep Reinforcement Learning from Human Preferences” (https://arxiv.org/abs/1706.03741).

Проблема применения RL для таких задач в том, что сигнал от людей собирать дорого, и большой его поток сложно обеспечить. Поэтому хотелось бы его на несколько порядков уменьшить, чтобы сделать применение RL реальным. В той работе 17 года предложили для этого использовать обучаемую на человеческих оценках reward function, которая дальше используется для предсказания награды агента. Функция не человек, её можно дёргать часто.

BY gonzo-обзоры ML статей




Share with your friend now:
group-telegram.com/gonzo_ML/1277

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

NEWS The company maintains that it cannot act against individual or group chats, which are “private amongst their participants,” but it will respond to requests in relation to sticker sets, channels and bots which are publicly available. During the invasion of Ukraine, Pavel Durov has wrestled with this issue a lot more prominently than he has before. Channels like Donbass Insider and Bellum Acta, as reported by Foreign Policy, started pumping out pro-Russian propaganda as the invasion began. So much so that the Ukrainian National Security and Defense Council issued a statement labeling which accounts are Russian-backed. Ukrainian officials, in potential violation of the Geneva Convention, have shared imagery of dead and captured Russian soldiers on the platform. Russian President Vladimir Putin launched Russia's invasion of Ukraine in the early-morning hours of February 24, targeting several key cities with military strikes. Soloviev also promoted the channel in a post he shared on his own Telegram, which has 580,000 followers. The post recommended his viewers subscribe to "War on Fakes" in a time of fake news. Perpetrators of such fraud use various marketing techniques to attract subscribers on their social media channels.
from no


Telegram gonzo-обзоры ML статей
FROM American