Telegram Group & Telegram Channel
[OpenAI InstructGPT & RLHF] Training language models to follow instructions with human feedback
Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe
Статья: https://arxiv.org/abs/2203.02155
Пост в блоге: https://openai.com/blog/instruction-following/
Model card: https://github.com/openai/following-instructions-human-feedback

Мы уже много раз упоминали RLHF (Reinforcement Learning from Human Feedback), на котором построены модели OpenAI семейства InstructGPT (включая ChatGPT), а также модели конкурирующих фирм типа Sparrow от DeepMind (https://www.group-telegram.com/ua/gonzo_ML.com/1237). Надо разобрать эту классику.

Оригинальная цель работы -- alignment, выровнять поведение модели относительно интента пользователя. Под интентом в данном случае подразумевается как явное следование инструкциям (что запросил человек в промпте), так и неявные truthfulness, fairness, safety.

В OpenAI темой alignment занимается отдельная команда (https://openai.com/alignment/), их подход описан в этой статье (https://openai.com/blog/our-approach-to-alignment-research/). Вот дискуссия с обсуждением этого плана на AI alignment forum (https://www.alignmentforum.org/posts/FTk7ufqK2D4dkdBDr/notes-on-openai-s-alignment-plan). Отдельный вопрос, как это всё может переноситься на alignment сущностей умнее человека.

Если вдаваться в суть, то иерархия адаптации GPT-подобных моделей выглядит как-то так.

Во-первых, есть базовая модель GPT, обученная на каких-то достаточно универсальных и разнообразных данных. У моделей разных компаний эти наборы данных разные, хотя и пересекающиеся. Есть также специализированные версии GPT, обученные на специальных доменах, типа BioGPT от Microsoft (https://github.com/microsoft/BioGPT). Это всё предобученные модели (pre-trained models).

Дальше, предобученную модель можно уговаривать произвести нужный вам результат путём подбора правильного промпта. Это тот самый prompt-engineering. На выходе мы получаем prompt-tuned модель. Промпт-инжиниринг включает в себя добавление в промпт примеров решения нужной задачи, это тот самый few-shot learning через in-context learning, который основательно выстрелил после работы про GPT-3 (https://www.group-telegram.com/ua/gonzo_ML.com/305). По сути это всё тот же промпт с добавленными примерами.

Другой параллельный способ улучшения модели, это supervised fine-tuning, когда модель дообучается на той же задаче языкового моделирования (предсказания следующего токена), что и оригинальная GPT, но на специальном тематическом датасете. Так, например, LaMDA (https://www.group-telegram.com/ua/gonzo_ML.com/1229) дообучалась на примерах хороших по разным критериям диалогов.

Ну и наконец новый зверь в зоопарке, RLHF, также помогает получить более качественную модель, используя обучение с подкреплением, где в качестве сигнала для обучения выступают предпочтения человеков относительно разных генераций. Это далеко не первый пример использования RL, во многом у тех же авторов из OpenAI за пару лет до работы про InstructGPT была работа про суммаризацию с RL (https://openai.com/blog/learning-to-summarize-with-human-feedback/), а ещё раньше на NIPS 2017 года была совместная работа авторов из DeepMind и OpenAI под названием “Deep Reinforcement Learning from Human Preferences” (https://arxiv.org/abs/1706.03741).

Проблема применения RL для таких задач в том, что сигнал от людей собирать дорого, и большой его поток сложно обеспечить. Поэтому хотелось бы его на несколько порядков уменьшить, чтобы сделать применение RL реальным. В той работе 17 года предложили для этого использовать обучаемую на человеческих оценках reward function, которая дальше используется для предсказания награды агента. Функция не человек, её можно дёргать часто.



group-telegram.com/gonzo_ML/1277
Create:
Last Update:

[OpenAI InstructGPT & RLHF] Training language models to follow instructions with human feedback
Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe
Статья: https://arxiv.org/abs/2203.02155
Пост в блоге: https://openai.com/blog/instruction-following/
Model card: https://github.com/openai/following-instructions-human-feedback

Мы уже много раз упоминали RLHF (Reinforcement Learning from Human Feedback), на котором построены модели OpenAI семейства InstructGPT (включая ChatGPT), а также модели конкурирующих фирм типа Sparrow от DeepMind (https://www.group-telegram.com/ua/gonzo_ML.com/1237). Надо разобрать эту классику.

Оригинальная цель работы -- alignment, выровнять поведение модели относительно интента пользователя. Под интентом в данном случае подразумевается как явное следование инструкциям (что запросил человек в промпте), так и неявные truthfulness, fairness, safety.

В OpenAI темой alignment занимается отдельная команда (https://openai.com/alignment/), их подход описан в этой статье (https://openai.com/blog/our-approach-to-alignment-research/). Вот дискуссия с обсуждением этого плана на AI alignment forum (https://www.alignmentforum.org/posts/FTk7ufqK2D4dkdBDr/notes-on-openai-s-alignment-plan). Отдельный вопрос, как это всё может переноситься на alignment сущностей умнее человека.

Если вдаваться в суть, то иерархия адаптации GPT-подобных моделей выглядит как-то так.

Во-первых, есть базовая модель GPT, обученная на каких-то достаточно универсальных и разнообразных данных. У моделей разных компаний эти наборы данных разные, хотя и пересекающиеся. Есть также специализированные версии GPT, обученные на специальных доменах, типа BioGPT от Microsoft (https://github.com/microsoft/BioGPT). Это всё предобученные модели (pre-trained models).

Дальше, предобученную модель можно уговаривать произвести нужный вам результат путём подбора правильного промпта. Это тот самый prompt-engineering. На выходе мы получаем prompt-tuned модель. Промпт-инжиниринг включает в себя добавление в промпт примеров решения нужной задачи, это тот самый few-shot learning через in-context learning, который основательно выстрелил после работы про GPT-3 (https://www.group-telegram.com/ua/gonzo_ML.com/305). По сути это всё тот же промпт с добавленными примерами.

Другой параллельный способ улучшения модели, это supervised fine-tuning, когда модель дообучается на той же задаче языкового моделирования (предсказания следующего токена), что и оригинальная GPT, но на специальном тематическом датасете. Так, например, LaMDA (https://www.group-telegram.com/ua/gonzo_ML.com/1229) дообучалась на примерах хороших по разным критериям диалогов.

Ну и наконец новый зверь в зоопарке, RLHF, также помогает получить более качественную модель, используя обучение с подкреплением, где в качестве сигнала для обучения выступают предпочтения человеков относительно разных генераций. Это далеко не первый пример использования RL, во многом у тех же авторов из OpenAI за пару лет до работы про InstructGPT была работа про суммаризацию с RL (https://openai.com/blog/learning-to-summarize-with-human-feedback/), а ещё раньше на NIPS 2017 года была совместная работа авторов из DeepMind и OpenAI под названием “Deep Reinforcement Learning from Human Preferences” (https://arxiv.org/abs/1706.03741).

Проблема применения RL для таких задач в том, что сигнал от людей собирать дорого, и большой его поток сложно обеспечить. Поэтому хотелось бы его на несколько порядков уменьшить, чтобы сделать применение RL реальным. В той работе 17 года предложили для этого использовать обучаемую на человеческих оценках reward function, которая дальше используется для предсказания награды агента. Функция не человек, её можно дёргать часто.

BY gonzo-обзоры ML статей




Share with your friend now:
group-telegram.com/gonzo_ML/1277

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Pavel Durov, a billionaire who embraces an all-black wardrobe and is often compared to the character Neo from "the Matrix," funds Telegram through his personal wealth and debt financing. And despite being one of the world's most popular tech companies, Telegram reportedly has only about 30 employees who defer to Durov for most major decisions about the platform. In 2018, Russia banned Telegram although it reversed the prohibition two years later. Anastasia Vlasova/Getty Images Telegram does offer end-to-end encrypted communications through Secret Chats, but this is not the default setting. Standard conversations use the MTProto method, enabling server-client encryption but with them stored on the server for ease-of-access. This makes using Telegram across multiple devices simple, but also means that the regular Telegram chats you’re having with folks are not as secure as you may believe. He floated the idea of restricting the use of Telegram in Ukraine and Russia, a suggestion that was met with fierce opposition from users. Shortly after, Durov backed off the idea.
from ua


Telegram gonzo-обзоры ML статей
FROM American