Telegram Group & Telegram Channel
[Anthropic RL-CAI & RLAIF] Constitutional AI: Harmlessness from AI Feedback
Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, Anna Goldie, Azalia Mirhoseini, Cameron McKinnon, Carol Chen, Catherine Olsson, Christopher Olah, Danny Hernandez, Dawn Drain, Deep Ganguli, Dustin Li, Eli Tran-Johnson, Ethan Perez, Jamie Kerr, Jared Mueller, Jeffrey Ladish, Joshua Landau, Kamal Ndousse, Kamile Lukosuite, Liane Lovitt, Michael Sellitto, Nelson Elhage, Nicholas Schiefer, Noemi Mercado, Nova DasSarma, Robert Lasenby, Robin Larson, Sam Ringer, Scott Johnston, Shauna Kravec, Sheer El Showk, Stanislav Fort, Tamera Lanham, Timothy Telleen-Lawton, Tom Conerly, Tom Henighan, Tristan Hume, Samuel R. Bowman, Zac Hatfield-Dodds, Ben Mann, Dario Amodei, Nicholas Joseph, Sam McCandlish, Tom Brown, Jared Kaplan
Статья: https://arxiv.org/abs/2212.08073
Репа с допматериалами: https://github.com/anthropics/ConstitutionalHarmlessnessPaper
Twitter-thread: https://twitter.com/AnthropicAI/status/1603791161419698181

Ну и нельзя конечно не написать про основанный выходцами из OpenAI (среди них, например, бывший там VP of Research, Dario Amodei или первый автор работы про GPT-3 Tom Brown) Anthropic, у которого есть свой пока не выпущенный наружу чатбот/языковая модель Claude, тем более, что недавно Гугл в них сильно вложился (https://www.theverge.com/2023/2/3/23584540/google-anthropic-investment-300-million-openai-chatgpt-rival-claude).

Anthropic активно использовал RLHF (https://www.group-telegram.com/cn/gonzo_ML.com/1277) в своей предыдущей работе “Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback” (https://arxiv.org/abs/2204.05862), а теперь они перешли к его замене под названием RLAIF (RL from AI Feedback) и продвигают свой подход под названием Constitutional AI.

Глобальная идея в том, что хочется сохранять свойство системы быть helpful, honest, и harmless даже когда её способности превышают человеческие, и для этого хорошо бы иметь техники, не полагающиеся на людей, чтобы систему можно было тестировать и улучшать автоматически. При этом хочется иметь возможность закодировать желаемое поведение в простой и прозрачной форме, а это позволило бы лучше понимать принятие решений AI.

Звучит сингулярненько, стоит копнуть поглубже.

Overview

Авторы используют термин Scaling Supervision для техник, позволяющих людям более эффективно надзирать (в смысле supervise) за AI с малым количеством высококачественного человеческого фидбека (который, конечно, дорог). А в некоторых случаях машины и так уже лучше людей (и таких кейсов будет только больше), и за такими тоже надо научиться приглядывать, и scaling supervision может помочь.

RLHF уже по сути сделал шаг в этом направлении, потому что там сигнал оценки приходит не от человека, а от обученной на человеческих предпочтениях reward model. Но RLHF всё равно использует десятки тысяч человеческих оценок, а хочется попробовать предельный вариант без них. Вместо них файнтюнить AI модели на предмет безвредности (harmless) планируется с помощью конституции, содержащей порядка десятка простых принципов, выраженных человеческим языком. Кроме того все эти десятки тысяч человеческих оценок не позволяют пролить свет на суть training objective, потому что это сложно понять и суммаризовать. И как мы знаем, также это не защищает от Goal misgeneralization (https://www.group-telegram.com/cn/gonzo_ML.com/1160). Хочется прозрачности.

В предыдущей работе Anthropic про RLHF было показано, что есть серьёзный конфликт между полезностью (helpfulness) и безвредностью (harmlessness), что проявляется, например, в запросах к боту дать рецепт делания какой-нибудь мерзопакости. Там агент уходил по таким запросам в уклончивые ответы, потому что такое поведение вознаграждалось краудворкерами. Здесь хочется сделать, чтобы бот в таких случаях просто отказывался давать ответ, объясняя, почему он так поступает, без всякого увиливания.



group-telegram.com/gonzo_ML/1285
Create:
Last Update:

[Anthropic RL-CAI & RLAIF] Constitutional AI: Harmlessness from AI Feedback
Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, Anna Goldie, Azalia Mirhoseini, Cameron McKinnon, Carol Chen, Catherine Olsson, Christopher Olah, Danny Hernandez, Dawn Drain, Deep Ganguli, Dustin Li, Eli Tran-Johnson, Ethan Perez, Jamie Kerr, Jared Mueller, Jeffrey Ladish, Joshua Landau, Kamal Ndousse, Kamile Lukosuite, Liane Lovitt, Michael Sellitto, Nelson Elhage, Nicholas Schiefer, Noemi Mercado, Nova DasSarma, Robert Lasenby, Robin Larson, Sam Ringer, Scott Johnston, Shauna Kravec, Sheer El Showk, Stanislav Fort, Tamera Lanham, Timothy Telleen-Lawton, Tom Conerly, Tom Henighan, Tristan Hume, Samuel R. Bowman, Zac Hatfield-Dodds, Ben Mann, Dario Amodei, Nicholas Joseph, Sam McCandlish, Tom Brown, Jared Kaplan
Статья: https://arxiv.org/abs/2212.08073
Репа с допматериалами: https://github.com/anthropics/ConstitutionalHarmlessnessPaper
Twitter-thread: https://twitter.com/AnthropicAI/status/1603791161419698181

Ну и нельзя конечно не написать про основанный выходцами из OpenAI (среди них, например, бывший там VP of Research, Dario Amodei или первый автор работы про GPT-3 Tom Brown) Anthropic, у которого есть свой пока не выпущенный наружу чатбот/языковая модель Claude, тем более, что недавно Гугл в них сильно вложился (https://www.theverge.com/2023/2/3/23584540/google-anthropic-investment-300-million-openai-chatgpt-rival-claude).

Anthropic активно использовал RLHF (https://www.group-telegram.com/cn/gonzo_ML.com/1277) в своей предыдущей работе “Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback” (https://arxiv.org/abs/2204.05862), а теперь они перешли к его замене под названием RLAIF (RL from AI Feedback) и продвигают свой подход под названием Constitutional AI.

Глобальная идея в том, что хочется сохранять свойство системы быть helpful, honest, и harmless даже когда её способности превышают человеческие, и для этого хорошо бы иметь техники, не полагающиеся на людей, чтобы систему можно было тестировать и улучшать автоматически. При этом хочется иметь возможность закодировать желаемое поведение в простой и прозрачной форме, а это позволило бы лучше понимать принятие решений AI.

Звучит сингулярненько, стоит копнуть поглубже.

Overview

Авторы используют термин Scaling Supervision для техник, позволяющих людям более эффективно надзирать (в смысле supervise) за AI с малым количеством высококачественного человеческого фидбека (который, конечно, дорог). А в некоторых случаях машины и так уже лучше людей (и таких кейсов будет только больше), и за такими тоже надо научиться приглядывать, и scaling supervision может помочь.

RLHF уже по сути сделал шаг в этом направлении, потому что там сигнал оценки приходит не от человека, а от обученной на человеческих предпочтениях reward model. Но RLHF всё равно использует десятки тысяч человеческих оценок, а хочется попробовать предельный вариант без них. Вместо них файнтюнить AI модели на предмет безвредности (harmless) планируется с помощью конституции, содержащей порядка десятка простых принципов, выраженных человеческим языком. Кроме того все эти десятки тысяч человеческих оценок не позволяют пролить свет на суть training objective, потому что это сложно понять и суммаризовать. И как мы знаем, также это не защищает от Goal misgeneralization (https://www.group-telegram.com/cn/gonzo_ML.com/1160). Хочется прозрачности.

В предыдущей работе Anthropic про RLHF было показано, что есть серьёзный конфликт между полезностью (helpfulness) и безвредностью (harmlessness), что проявляется, например, в запросах к боту дать рецепт делания какой-нибудь мерзопакости. Там агент уходил по таким запросам в уклончивые ответы, потому что такое поведение вознаграждалось краудворкерами. Здесь хочется сделать, чтобы бот в таких случаях просто отказывался давать ответ, объясняя, почему он так поступает, без всякого увиливания.

BY gonzo-обзоры ML статей




Share with your friend now:
group-telegram.com/gonzo_ML/1285

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Oleksandra Matviichuk, a Kyiv-based lawyer and head of the Center for Civil Liberties, called Durov’s position "very weak," and urged concrete improvements. NEWS But Telegram says people want to keep their chat history when they get a new phone, and they like having a data backup that will sync their chats across multiple devices. And that is why they let people choose whether they want their messages to be encrypted or not. When not turned on, though, chats are stored on Telegram's services, which are scattered throughout the world. But it has "disclosed 0 bytes of user data to third parties, including governments," Telegram states on its website. The company maintains that it cannot act against individual or group chats, which are “private amongst their participants,” but it will respond to requests in relation to sticker sets, channels and bots which are publicly available. During the invasion of Ukraine, Pavel Durov has wrestled with this issue a lot more prominently than he has before. Channels like Donbass Insider and Bellum Acta, as reported by Foreign Policy, started pumping out pro-Russian propaganda as the invasion began. So much so that the Ukrainian National Security and Defense Council issued a statement labeling which accounts are Russian-backed. Ukrainian officials, in potential violation of the Geneva Convention, have shared imagery of dead and captured Russian soldiers on the platform. The last couple days have exemplified that uncertainty. On Thursday, news emerged that talks in Turkey between the Russia and Ukraine yielded no positive result. But on Friday, Reuters reported that Russian President Vladimir Putin said there had been some “positive shifts” in talks between the two sides.
from cn


Telegram gonzo-обзоры ML статей
FROM American