Telegram Group & Telegram Channel
[Anthropic RL-CAI & RLAIF] Constitutional AI: Harmlessness from AI Feedback
Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, Anna Goldie, Azalia Mirhoseini, Cameron McKinnon, Carol Chen, Catherine Olsson, Christopher Olah, Danny Hernandez, Dawn Drain, Deep Ganguli, Dustin Li, Eli Tran-Johnson, Ethan Perez, Jamie Kerr, Jared Mueller, Jeffrey Ladish, Joshua Landau, Kamal Ndousse, Kamile Lukosuite, Liane Lovitt, Michael Sellitto, Nelson Elhage, Nicholas Schiefer, Noemi Mercado, Nova DasSarma, Robert Lasenby, Robin Larson, Sam Ringer, Scott Johnston, Shauna Kravec, Sheer El Showk, Stanislav Fort, Tamera Lanham, Timothy Telleen-Lawton, Tom Conerly, Tom Henighan, Tristan Hume, Samuel R. Bowman, Zac Hatfield-Dodds, Ben Mann, Dario Amodei, Nicholas Joseph, Sam McCandlish, Tom Brown, Jared Kaplan
Статья: https://arxiv.org/abs/2212.08073
Репа с допматериалами: https://github.com/anthropics/ConstitutionalHarmlessnessPaper
Twitter-thread: https://twitter.com/AnthropicAI/status/1603791161419698181

Ну и нельзя конечно не написать про основанный выходцами из OpenAI (среди них, например, бывший там VP of Research, Dario Amodei или первый автор работы про GPT-3 Tom Brown) Anthropic, у которого есть свой пока не выпущенный наружу чатбот/языковая модель Claude, тем более, что недавно Гугл в них сильно вложился (https://www.theverge.com/2023/2/3/23584540/google-anthropic-investment-300-million-openai-chatgpt-rival-claude).

Anthropic активно использовал RLHF (https://www.group-telegram.com/no/gonzo_ML.com/1277) в своей предыдущей работе “Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback” (https://arxiv.org/abs/2204.05862), а теперь они перешли к его замене под названием RLAIF (RL from AI Feedback) и продвигают свой подход под названием Constitutional AI.

Глобальная идея в том, что хочется сохранять свойство системы быть helpful, honest, и harmless даже когда её способности превышают человеческие, и для этого хорошо бы иметь техники, не полагающиеся на людей, чтобы систему можно было тестировать и улучшать автоматически. При этом хочется иметь возможность закодировать желаемое поведение в простой и прозрачной форме, а это позволило бы лучше понимать принятие решений AI.

Звучит сингулярненько, стоит копнуть поглубже.

Overview

Авторы используют термин Scaling Supervision для техник, позволяющих людям более эффективно надзирать (в смысле supervise) за AI с малым количеством высококачественного человеческого фидбека (который, конечно, дорог). А в некоторых случаях машины и так уже лучше людей (и таких кейсов будет только больше), и за такими тоже надо научиться приглядывать, и scaling supervision может помочь.

RLHF уже по сути сделал шаг в этом направлении, потому что там сигнал оценки приходит не от человека, а от обученной на человеческих предпочтениях reward model. Но RLHF всё равно использует десятки тысяч человеческих оценок, а хочется попробовать предельный вариант без них. Вместо них файнтюнить AI модели на предмет безвредности (harmless) планируется с помощью конституции, содержащей порядка десятка простых принципов, выраженных человеческим языком. Кроме того все эти десятки тысяч человеческих оценок не позволяют пролить свет на суть training objective, потому что это сложно понять и суммаризовать. И как мы знаем, также это не защищает от Goal misgeneralization (https://www.group-telegram.com/no/gonzo_ML.com/1160). Хочется прозрачности.

В предыдущей работе Anthropic про RLHF было показано, что есть серьёзный конфликт между полезностью (helpfulness) и безвредностью (harmlessness), что проявляется, например, в запросах к боту дать рецепт делания какой-нибудь мерзопакости. Там агент уходил по таким запросам в уклончивые ответы, потому что такое поведение вознаграждалось краудворкерами. Здесь хочется сделать, чтобы бот в таких случаях просто отказывался давать ответ, объясняя, почему он так поступает, без всякого увиливания.



group-telegram.com/gonzo_ML/1285
Create:
Last Update:

[Anthropic RL-CAI & RLAIF] Constitutional AI: Harmlessness from AI Feedback
Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, Anna Goldie, Azalia Mirhoseini, Cameron McKinnon, Carol Chen, Catherine Olsson, Christopher Olah, Danny Hernandez, Dawn Drain, Deep Ganguli, Dustin Li, Eli Tran-Johnson, Ethan Perez, Jamie Kerr, Jared Mueller, Jeffrey Ladish, Joshua Landau, Kamal Ndousse, Kamile Lukosuite, Liane Lovitt, Michael Sellitto, Nelson Elhage, Nicholas Schiefer, Noemi Mercado, Nova DasSarma, Robert Lasenby, Robin Larson, Sam Ringer, Scott Johnston, Shauna Kravec, Sheer El Showk, Stanislav Fort, Tamera Lanham, Timothy Telleen-Lawton, Tom Conerly, Tom Henighan, Tristan Hume, Samuel R. Bowman, Zac Hatfield-Dodds, Ben Mann, Dario Amodei, Nicholas Joseph, Sam McCandlish, Tom Brown, Jared Kaplan
Статья: https://arxiv.org/abs/2212.08073
Репа с допматериалами: https://github.com/anthropics/ConstitutionalHarmlessnessPaper
Twitter-thread: https://twitter.com/AnthropicAI/status/1603791161419698181

Ну и нельзя конечно не написать про основанный выходцами из OpenAI (среди них, например, бывший там VP of Research, Dario Amodei или первый автор работы про GPT-3 Tom Brown) Anthropic, у которого есть свой пока не выпущенный наружу чатбот/языковая модель Claude, тем более, что недавно Гугл в них сильно вложился (https://www.theverge.com/2023/2/3/23584540/google-anthropic-investment-300-million-openai-chatgpt-rival-claude).

Anthropic активно использовал RLHF (https://www.group-telegram.com/no/gonzo_ML.com/1277) в своей предыдущей работе “Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback” (https://arxiv.org/abs/2204.05862), а теперь они перешли к его замене под названием RLAIF (RL from AI Feedback) и продвигают свой подход под названием Constitutional AI.

Глобальная идея в том, что хочется сохранять свойство системы быть helpful, honest, и harmless даже когда её способности превышают человеческие, и для этого хорошо бы иметь техники, не полагающиеся на людей, чтобы систему можно было тестировать и улучшать автоматически. При этом хочется иметь возможность закодировать желаемое поведение в простой и прозрачной форме, а это позволило бы лучше понимать принятие решений AI.

Звучит сингулярненько, стоит копнуть поглубже.

Overview

Авторы используют термин Scaling Supervision для техник, позволяющих людям более эффективно надзирать (в смысле supervise) за AI с малым количеством высококачественного человеческого фидбека (который, конечно, дорог). А в некоторых случаях машины и так уже лучше людей (и таких кейсов будет только больше), и за такими тоже надо научиться приглядывать, и scaling supervision может помочь.

RLHF уже по сути сделал шаг в этом направлении, потому что там сигнал оценки приходит не от человека, а от обученной на человеческих предпочтениях reward model. Но RLHF всё равно использует десятки тысяч человеческих оценок, а хочется попробовать предельный вариант без них. Вместо них файнтюнить AI модели на предмет безвредности (harmless) планируется с помощью конституции, содержащей порядка десятка простых принципов, выраженных человеческим языком. Кроме того все эти десятки тысяч человеческих оценок не позволяют пролить свет на суть training objective, потому что это сложно понять и суммаризовать. И как мы знаем, также это не защищает от Goal misgeneralization (https://www.group-telegram.com/no/gonzo_ML.com/1160). Хочется прозрачности.

В предыдущей работе Anthropic про RLHF было показано, что есть серьёзный конфликт между полезностью (helpfulness) и безвредностью (harmlessness), что проявляется, например, в запросах к боту дать рецепт делания какой-нибудь мерзопакости. Там агент уходил по таким запросам в уклончивые ответы, потому что такое поведение вознаграждалось краудворкерами. Здесь хочется сделать, чтобы бот в таких случаях просто отказывался давать ответ, объясняя, почему он так поступает, без всякого увиливания.

BY gonzo-обзоры ML статей




Share with your friend now:
group-telegram.com/gonzo_ML/1285

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In a message on his Telegram channel recently recounting the episode, Durov wrote: "I lost my company and my home, but would do it again – without hesitation." What distinguishes the app from competitors is its use of what's known as channels: Public or private feeds of photos and videos that can be set up by one person or an organization. The channels have become popular with on-the-ground journalists, aid workers and Ukrainian President Volodymyr Zelenskyy, who broadcasts on a Telegram channel. The channels can be followed by an unlimited number of people. Unlike Facebook, Twitter and other popular social networks, there is no advertising on Telegram and the flow of information is not driven by an algorithm. Pavel Durov, Telegram's CEO, is known as "the Russian Mark Zuckerberg," for co-founding VKontakte, which is Russian for "in touch," a Facebook imitator that became the country's most popular social networking site. And indeed, volatility has been a hallmark of the market environment so far in 2022, with the S&P 500 still down more than 10% for the year-to-date after first sliding into a correction last month. The CBOE Volatility Index, or VIX, has held at a lofty level of more than 30. The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips.
from no


Telegram gonzo-обзоры ML статей
FROM American