Telegram Group & Telegram Channel
[Anthropic RL-CAI & RLAIF] Constitutional AI: Harmlessness from AI Feedback
Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, Anna Goldie, Azalia Mirhoseini, Cameron McKinnon, Carol Chen, Catherine Olsson, Christopher Olah, Danny Hernandez, Dawn Drain, Deep Ganguli, Dustin Li, Eli Tran-Johnson, Ethan Perez, Jamie Kerr, Jared Mueller, Jeffrey Ladish, Joshua Landau, Kamal Ndousse, Kamile Lukosuite, Liane Lovitt, Michael Sellitto, Nelson Elhage, Nicholas Schiefer, Noemi Mercado, Nova DasSarma, Robert Lasenby, Robin Larson, Sam Ringer, Scott Johnston, Shauna Kravec, Sheer El Showk, Stanislav Fort, Tamera Lanham, Timothy Telleen-Lawton, Tom Conerly, Tom Henighan, Tristan Hume, Samuel R. Bowman, Zac Hatfield-Dodds, Ben Mann, Dario Amodei, Nicholas Joseph, Sam McCandlish, Tom Brown, Jared Kaplan
Статья: https://arxiv.org/abs/2212.08073
Репа с допматериалами: https://github.com/anthropics/ConstitutionalHarmlessnessPaper
Twitter-thread: https://twitter.com/AnthropicAI/status/1603791161419698181

Ну и нельзя конечно не написать про основанный выходцами из OpenAI (среди них, например, бывший там VP of Research, Dario Amodei или первый автор работы про GPT-3 Tom Brown) Anthropic, у которого есть свой пока не выпущенный наружу чатбот/языковая модель Claude, тем более, что недавно Гугл в них сильно вложился (https://www.theverge.com/2023/2/3/23584540/google-anthropic-investment-300-million-openai-chatgpt-rival-claude).

Anthropic активно использовал RLHF (https://www.group-telegram.com/ye/gonzo_ML.com/1277) в своей предыдущей работе “Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback” (https://arxiv.org/abs/2204.05862), а теперь они перешли к его замене под названием RLAIF (RL from AI Feedback) и продвигают свой подход под названием Constitutional AI.

Глобальная идея в том, что хочется сохранять свойство системы быть helpful, honest, и harmless даже когда её способности превышают человеческие, и для этого хорошо бы иметь техники, не полагающиеся на людей, чтобы систему можно было тестировать и улучшать автоматически. При этом хочется иметь возможность закодировать желаемое поведение в простой и прозрачной форме, а это позволило бы лучше понимать принятие решений AI.

Звучит сингулярненько, стоит копнуть поглубже.

Overview

Авторы используют термин Scaling Supervision для техник, позволяющих людям более эффективно надзирать (в смысле supervise) за AI с малым количеством высококачественного человеческого фидбека (который, конечно, дорог). А в некоторых случаях машины и так уже лучше людей (и таких кейсов будет только больше), и за такими тоже надо научиться приглядывать, и scaling supervision может помочь.

RLHF уже по сути сделал шаг в этом направлении, потому что там сигнал оценки приходит не от человека, а от обученной на человеческих предпочтениях reward model. Но RLHF всё равно использует десятки тысяч человеческих оценок, а хочется попробовать предельный вариант без них. Вместо них файнтюнить AI модели на предмет безвредности (harmless) планируется с помощью конституции, содержащей порядка десятка простых принципов, выраженных человеческим языком. Кроме того все эти десятки тысяч человеческих оценок не позволяют пролить свет на суть training objective, потому что это сложно понять и суммаризовать. И как мы знаем, также это не защищает от Goal misgeneralization (https://www.group-telegram.com/ye/gonzo_ML.com/1160). Хочется прозрачности.

В предыдущей работе Anthropic про RLHF было показано, что есть серьёзный конфликт между полезностью (helpfulness) и безвредностью (harmlessness), что проявляется, например, в запросах к боту дать рецепт делания какой-нибудь мерзопакости. Там агент уходил по таким запросам в уклончивые ответы, потому что такое поведение вознаграждалось краудворкерами. Здесь хочется сделать, чтобы бот в таких случаях просто отказывался давать ответ, объясняя, почему он так поступает, без всякого увиливания.



group-telegram.com/gonzo_ML/1285
Create:
Last Update:

[Anthropic RL-CAI & RLAIF] Constitutional AI: Harmlessness from AI Feedback
Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, Anna Goldie, Azalia Mirhoseini, Cameron McKinnon, Carol Chen, Catherine Olsson, Christopher Olah, Danny Hernandez, Dawn Drain, Deep Ganguli, Dustin Li, Eli Tran-Johnson, Ethan Perez, Jamie Kerr, Jared Mueller, Jeffrey Ladish, Joshua Landau, Kamal Ndousse, Kamile Lukosuite, Liane Lovitt, Michael Sellitto, Nelson Elhage, Nicholas Schiefer, Noemi Mercado, Nova DasSarma, Robert Lasenby, Robin Larson, Sam Ringer, Scott Johnston, Shauna Kravec, Sheer El Showk, Stanislav Fort, Tamera Lanham, Timothy Telleen-Lawton, Tom Conerly, Tom Henighan, Tristan Hume, Samuel R. Bowman, Zac Hatfield-Dodds, Ben Mann, Dario Amodei, Nicholas Joseph, Sam McCandlish, Tom Brown, Jared Kaplan
Статья: https://arxiv.org/abs/2212.08073
Репа с допматериалами: https://github.com/anthropics/ConstitutionalHarmlessnessPaper
Twitter-thread: https://twitter.com/AnthropicAI/status/1603791161419698181

Ну и нельзя конечно не написать про основанный выходцами из OpenAI (среди них, например, бывший там VP of Research, Dario Amodei или первый автор работы про GPT-3 Tom Brown) Anthropic, у которого есть свой пока не выпущенный наружу чатбот/языковая модель Claude, тем более, что недавно Гугл в них сильно вложился (https://www.theverge.com/2023/2/3/23584540/google-anthropic-investment-300-million-openai-chatgpt-rival-claude).

Anthropic активно использовал RLHF (https://www.group-telegram.com/ye/gonzo_ML.com/1277) в своей предыдущей работе “Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback” (https://arxiv.org/abs/2204.05862), а теперь они перешли к его замене под названием RLAIF (RL from AI Feedback) и продвигают свой подход под названием Constitutional AI.

Глобальная идея в том, что хочется сохранять свойство системы быть helpful, honest, и harmless даже когда её способности превышают человеческие, и для этого хорошо бы иметь техники, не полагающиеся на людей, чтобы систему можно было тестировать и улучшать автоматически. При этом хочется иметь возможность закодировать желаемое поведение в простой и прозрачной форме, а это позволило бы лучше понимать принятие решений AI.

Звучит сингулярненько, стоит копнуть поглубже.

Overview

Авторы используют термин Scaling Supervision для техник, позволяющих людям более эффективно надзирать (в смысле supervise) за AI с малым количеством высококачественного человеческого фидбека (который, конечно, дорог). А в некоторых случаях машины и так уже лучше людей (и таких кейсов будет только больше), и за такими тоже надо научиться приглядывать, и scaling supervision может помочь.

RLHF уже по сути сделал шаг в этом направлении, потому что там сигнал оценки приходит не от человека, а от обученной на человеческих предпочтениях reward model. Но RLHF всё равно использует десятки тысяч человеческих оценок, а хочется попробовать предельный вариант без них. Вместо них файнтюнить AI модели на предмет безвредности (harmless) планируется с помощью конституции, содержащей порядка десятка простых принципов, выраженных человеческим языком. Кроме того все эти десятки тысяч человеческих оценок не позволяют пролить свет на суть training objective, потому что это сложно понять и суммаризовать. И как мы знаем, также это не защищает от Goal misgeneralization (https://www.group-telegram.com/ye/gonzo_ML.com/1160). Хочется прозрачности.

В предыдущей работе Anthropic про RLHF было показано, что есть серьёзный конфликт между полезностью (helpfulness) и безвредностью (harmlessness), что проявляется, например, в запросах к боту дать рецепт делания какой-нибудь мерзопакости. Там агент уходил по таким запросам в уклончивые ответы, потому что такое поведение вознаграждалось краудворкерами. Здесь хочется сделать, чтобы бот в таких случаях просто отказывался давать ответ, объясняя, почему он так поступает, без всякого увиливания.

BY gonzo-обзоры ML статей




Share with your friend now:
group-telegram.com/gonzo_ML/1285

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram boasts 500 million users, who share information individually and in groups in relative security. But Telegram's use as a one-way broadcast channel — which followers can join but not reply to — means content from inauthentic accounts can easily reach large, captive and eager audiences. After fleeing Russia, the brothers founded Telegram as a way to communicate outside the Kremlin's orbit. They now run it from Dubai, and Pavel Durov says it has more than 500 million monthly active users. "There are a lot of things that Telegram could have been doing this whole time. And they know exactly what they are and they've chosen not to do them. That's why I don't trust them," she said. Telegram, which does little policing of its content, has also became a hub for Russian propaganda and misinformation. Many pro-Kremlin channels have become popular, alongside accounts of journalists and other independent observers. "We as Ukrainians believe that the truth is on our side, whether it's truth that you're proclaiming about the war and everything else, why would you want to hide it?," he said.
from ye


Telegram gonzo-обзоры ML статей
FROM American