Telegram Group & Telegram Channel
[OpenAI InstructGPT & RLHF] Training language models to follow instructions with human feedback
Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe
Статья: https://arxiv.org/abs/2203.02155
Пост в блоге: https://openai.com/blog/instruction-following/
Model card: https://github.com/openai/following-instructions-human-feedback

Мы уже много раз упоминали RLHF (Reinforcement Learning from Human Feedback), на котором построены модели OpenAI семейства InstructGPT (включая ChatGPT), а также модели конкурирующих фирм типа Sparrow от DeepMind (https://www.group-telegram.com/br/gonzo_ML.com/1237). Надо разобрать эту классику.

Оригинальная цель работы -- alignment, выровнять поведение модели относительно интента пользователя. Под интентом в данном случае подразумевается как явное следование инструкциям (что запросил человек в промпте), так и неявные truthfulness, fairness, safety.

В OpenAI темой alignment занимается отдельная команда (https://openai.com/alignment/), их подход описан в этой статье (https://openai.com/blog/our-approach-to-alignment-research/). Вот дискуссия с обсуждением этого плана на AI alignment forum (https://www.alignmentforum.org/posts/FTk7ufqK2D4dkdBDr/notes-on-openai-s-alignment-plan). Отдельный вопрос, как это всё может переноситься на alignment сущностей умнее человека.

Если вдаваться в суть, то иерархия адаптации GPT-подобных моделей выглядит как-то так.

Во-первых, есть базовая модель GPT, обученная на каких-то достаточно универсальных и разнообразных данных. У моделей разных компаний эти наборы данных разные, хотя и пересекающиеся. Есть также специализированные версии GPT, обученные на специальных доменах, типа BioGPT от Microsoft (https://github.com/microsoft/BioGPT). Это всё предобученные модели (pre-trained models).

Дальше, предобученную модель можно уговаривать произвести нужный вам результат путём подбора правильного промпта. Это тот самый prompt-engineering. На выходе мы получаем prompt-tuned модель. Промпт-инжиниринг включает в себя добавление в промпт примеров решения нужной задачи, это тот самый few-shot learning через in-context learning, который основательно выстрелил после работы про GPT-3 (https://www.group-telegram.com/br/gonzo_ML.com/305). По сути это всё тот же промпт с добавленными примерами.

Другой параллельный способ улучшения модели, это supervised fine-tuning, когда модель дообучается на той же задаче языкового моделирования (предсказания следующего токена), что и оригинальная GPT, но на специальном тематическом датасете. Так, например, LaMDA (https://www.group-telegram.com/br/gonzo_ML.com/1229) дообучалась на примерах хороших по разным критериям диалогов.

Ну и наконец новый зверь в зоопарке, RLHF, также помогает получить более качественную модель, используя обучение с подкреплением, где в качестве сигнала для обучения выступают предпочтения человеков относительно разных генераций. Это далеко не первый пример использования RL, во многом у тех же авторов из OpenAI за пару лет до работы про InstructGPT была работа про суммаризацию с RL (https://openai.com/blog/learning-to-summarize-with-human-feedback/), а ещё раньше на NIPS 2017 года была совместная работа авторов из DeepMind и OpenAI под названием “Deep Reinforcement Learning from Human Preferences” (https://arxiv.org/abs/1706.03741).

Проблема применения RL для таких задач в том, что сигнал от людей собирать дорого, и большой его поток сложно обеспечить. Поэтому хотелось бы его на несколько порядков уменьшить, чтобы сделать применение RL реальным. В той работе 17 года предложили для этого использовать обучаемую на человеческих оценках reward function, которая дальше используется для предсказания награды агента. Функция не человек, её можно дёргать часто.



group-telegram.com/gonzo_ML/1277
Create:
Last Update:

[OpenAI InstructGPT & RLHF] Training language models to follow instructions with human feedback
Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe
Статья: https://arxiv.org/abs/2203.02155
Пост в блоге: https://openai.com/blog/instruction-following/
Model card: https://github.com/openai/following-instructions-human-feedback

Мы уже много раз упоминали RLHF (Reinforcement Learning from Human Feedback), на котором построены модели OpenAI семейства InstructGPT (включая ChatGPT), а также модели конкурирующих фирм типа Sparrow от DeepMind (https://www.group-telegram.com/br/gonzo_ML.com/1237). Надо разобрать эту классику.

Оригинальная цель работы -- alignment, выровнять поведение модели относительно интента пользователя. Под интентом в данном случае подразумевается как явное следование инструкциям (что запросил человек в промпте), так и неявные truthfulness, fairness, safety.

В OpenAI темой alignment занимается отдельная команда (https://openai.com/alignment/), их подход описан в этой статье (https://openai.com/blog/our-approach-to-alignment-research/). Вот дискуссия с обсуждением этого плана на AI alignment forum (https://www.alignmentforum.org/posts/FTk7ufqK2D4dkdBDr/notes-on-openai-s-alignment-plan). Отдельный вопрос, как это всё может переноситься на alignment сущностей умнее человека.

Если вдаваться в суть, то иерархия адаптации GPT-подобных моделей выглядит как-то так.

Во-первых, есть базовая модель GPT, обученная на каких-то достаточно универсальных и разнообразных данных. У моделей разных компаний эти наборы данных разные, хотя и пересекающиеся. Есть также специализированные версии GPT, обученные на специальных доменах, типа BioGPT от Microsoft (https://github.com/microsoft/BioGPT). Это всё предобученные модели (pre-trained models).

Дальше, предобученную модель можно уговаривать произвести нужный вам результат путём подбора правильного промпта. Это тот самый prompt-engineering. На выходе мы получаем prompt-tuned модель. Промпт-инжиниринг включает в себя добавление в промпт примеров решения нужной задачи, это тот самый few-shot learning через in-context learning, который основательно выстрелил после работы про GPT-3 (https://www.group-telegram.com/br/gonzo_ML.com/305). По сути это всё тот же промпт с добавленными примерами.

Другой параллельный способ улучшения модели, это supervised fine-tuning, когда модель дообучается на той же задаче языкового моделирования (предсказания следующего токена), что и оригинальная GPT, но на специальном тематическом датасете. Так, например, LaMDA (https://www.group-telegram.com/br/gonzo_ML.com/1229) дообучалась на примерах хороших по разным критериям диалогов.

Ну и наконец новый зверь в зоопарке, RLHF, также помогает получить более качественную модель, используя обучение с подкреплением, где в качестве сигнала для обучения выступают предпочтения человеков относительно разных генераций. Это далеко не первый пример использования RL, во многом у тех же авторов из OpenAI за пару лет до работы про InstructGPT была работа про суммаризацию с RL (https://openai.com/blog/learning-to-summarize-with-human-feedback/), а ещё раньше на NIPS 2017 года была совместная работа авторов из DeepMind и OpenAI под названием “Deep Reinforcement Learning from Human Preferences” (https://arxiv.org/abs/1706.03741).

Проблема применения RL для таких задач в том, что сигнал от людей собирать дорого, и большой его поток сложно обеспечить. Поэтому хотелось бы его на несколько порядков уменьшить, чтобы сделать применение RL реальным. В той работе 17 года предложили для этого использовать обучаемую на человеческих оценках reward function, которая дальше используется для предсказания награды агента. Функция не человек, её можно дёргать часто.

BY gonzo-обзоры ML статей




Share with your friend now:
group-telegram.com/gonzo_ML/1277

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The channel appears to be part of the broader information war that has developed following Russia's invasion of Ukraine. The Kremlin has paid Russian TikTok influencers to push propaganda, according to a Vice News investigation, while ProPublica found that fake Russian fact check videos had been viewed over a million times on Telegram. In addition, Telegram now supports the use of third-party streaming tools like OBS Studio and XSplit to broadcast live video, allowing users to add overlays and multi-screen layouts for a more professional look. Ukrainian forces have since put up a strong resistance to the Russian troops amid the war that has left hundreds of Ukrainian civilians, including children, dead, according to the United Nations. Ukrainian and international officials have accused Russia of targeting civilian populations with shelling and bombardments. During the operations, Sebi officials seized various records and documents, including 34 mobile phones, six laptops, four desktops, four tablets, two hard drive disks and one pen drive from the custody of these persons. Telegram was co-founded by Pavel and Nikolai Durov, the brothers who had previously created VKontakte. VK is Russia’s equivalent of Facebook, a social network used for public and private messaging, audio and video sharing as well as online gaming. In January, SimpleWeb reported that VK was Russia’s fourth most-visited website, after Yandex, YouTube and Google’s Russian-language homepage. In 2016, Forbes’ Michael Solomon described Pavel Durov (pictured, below) as the “Mark Zuckerberg of Russia.”
from br


Telegram gonzo-обзоры ML статей
FROM American