Telegram Group & Telegram Channel
[Anthropic RL-CAI & RLAIF] Constitutional AI: Harmlessness from AI Feedback
Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, Anna Goldie, Azalia Mirhoseini, Cameron McKinnon, Carol Chen, Catherine Olsson, Christopher Olah, Danny Hernandez, Dawn Drain, Deep Ganguli, Dustin Li, Eli Tran-Johnson, Ethan Perez, Jamie Kerr, Jared Mueller, Jeffrey Ladish, Joshua Landau, Kamal Ndousse, Kamile Lukosuite, Liane Lovitt, Michael Sellitto, Nelson Elhage, Nicholas Schiefer, Noemi Mercado, Nova DasSarma, Robert Lasenby, Robin Larson, Sam Ringer, Scott Johnston, Shauna Kravec, Sheer El Showk, Stanislav Fort, Tamera Lanham, Timothy Telleen-Lawton, Tom Conerly, Tom Henighan, Tristan Hume, Samuel R. Bowman, Zac Hatfield-Dodds, Ben Mann, Dario Amodei, Nicholas Joseph, Sam McCandlish, Tom Brown, Jared Kaplan
Статья: https://arxiv.org/abs/2212.08073
Репа с допматериалами: https://github.com/anthropics/ConstitutionalHarmlessnessPaper
Twitter-thread: https://twitter.com/AnthropicAI/status/1603791161419698181

Ну и нельзя конечно не написать про основанный выходцами из OpenAI (среди них, например, бывший там VP of Research, Dario Amodei или первый автор работы про GPT-3 Tom Brown) Anthropic, у которого есть свой пока не выпущенный наружу чатбот/языковая модель Claude, тем более, что недавно Гугл в них сильно вложился (https://www.theverge.com/2023/2/3/23584540/google-anthropic-investment-300-million-openai-chatgpt-rival-claude).

Anthropic активно использовал RLHF (https://www.group-telegram.com/ca/gonzo_ML.com/1277) в своей предыдущей работе “Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback” (https://arxiv.org/abs/2204.05862), а теперь они перешли к его замене под названием RLAIF (RL from AI Feedback) и продвигают свой подход под названием Constitutional AI.

Глобальная идея в том, что хочется сохранять свойство системы быть helpful, honest, и harmless даже когда её способности превышают человеческие, и для этого хорошо бы иметь техники, не полагающиеся на людей, чтобы систему можно было тестировать и улучшать автоматически. При этом хочется иметь возможность закодировать желаемое поведение в простой и прозрачной форме, а это позволило бы лучше понимать принятие решений AI.

Звучит сингулярненько, стоит копнуть поглубже.

Overview

Авторы используют термин Scaling Supervision для техник, позволяющих людям более эффективно надзирать (в смысле supervise) за AI с малым количеством высококачественного человеческого фидбека (который, конечно, дорог). А в некоторых случаях машины и так уже лучше людей (и таких кейсов будет только больше), и за такими тоже надо научиться приглядывать, и scaling supervision может помочь.

RLHF уже по сути сделал шаг в этом направлении, потому что там сигнал оценки приходит не от человека, а от обученной на человеческих предпочтениях reward model. Но RLHF всё равно использует десятки тысяч человеческих оценок, а хочется попробовать предельный вариант без них. Вместо них файнтюнить AI модели на предмет безвредности (harmless) планируется с помощью конституции, содержащей порядка десятка простых принципов, выраженных человеческим языком. Кроме того все эти десятки тысяч человеческих оценок не позволяют пролить свет на суть training objective, потому что это сложно понять и суммаризовать. И как мы знаем, также это не защищает от Goal misgeneralization (https://www.group-telegram.com/ca/gonzo_ML.com/1160). Хочется прозрачности.

В предыдущей работе Anthropic про RLHF было показано, что есть серьёзный конфликт между полезностью (helpfulness) и безвредностью (harmlessness), что проявляется, например, в запросах к боту дать рецепт делания какой-нибудь мерзопакости. Там агент уходил по таким запросам в уклончивые ответы, потому что такое поведение вознаграждалось краудворкерами. Здесь хочется сделать, чтобы бот в таких случаях просто отказывался давать ответ, объясняя, почему он так поступает, без всякого увиливания.



group-telegram.com/gonzo_ML/1285
Create:
Last Update:

[Anthropic RL-CAI & RLAIF] Constitutional AI: Harmlessness from AI Feedback
Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, Anna Goldie, Azalia Mirhoseini, Cameron McKinnon, Carol Chen, Catherine Olsson, Christopher Olah, Danny Hernandez, Dawn Drain, Deep Ganguli, Dustin Li, Eli Tran-Johnson, Ethan Perez, Jamie Kerr, Jared Mueller, Jeffrey Ladish, Joshua Landau, Kamal Ndousse, Kamile Lukosuite, Liane Lovitt, Michael Sellitto, Nelson Elhage, Nicholas Schiefer, Noemi Mercado, Nova DasSarma, Robert Lasenby, Robin Larson, Sam Ringer, Scott Johnston, Shauna Kravec, Sheer El Showk, Stanislav Fort, Tamera Lanham, Timothy Telleen-Lawton, Tom Conerly, Tom Henighan, Tristan Hume, Samuel R. Bowman, Zac Hatfield-Dodds, Ben Mann, Dario Amodei, Nicholas Joseph, Sam McCandlish, Tom Brown, Jared Kaplan
Статья: https://arxiv.org/abs/2212.08073
Репа с допматериалами: https://github.com/anthropics/ConstitutionalHarmlessnessPaper
Twitter-thread: https://twitter.com/AnthropicAI/status/1603791161419698181

Ну и нельзя конечно не написать про основанный выходцами из OpenAI (среди них, например, бывший там VP of Research, Dario Amodei или первый автор работы про GPT-3 Tom Brown) Anthropic, у которого есть свой пока не выпущенный наружу чатбот/языковая модель Claude, тем более, что недавно Гугл в них сильно вложился (https://www.theverge.com/2023/2/3/23584540/google-anthropic-investment-300-million-openai-chatgpt-rival-claude).

Anthropic активно использовал RLHF (https://www.group-telegram.com/ca/gonzo_ML.com/1277) в своей предыдущей работе “Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback” (https://arxiv.org/abs/2204.05862), а теперь они перешли к его замене под названием RLAIF (RL from AI Feedback) и продвигают свой подход под названием Constitutional AI.

Глобальная идея в том, что хочется сохранять свойство системы быть helpful, honest, и harmless даже когда её способности превышают человеческие, и для этого хорошо бы иметь техники, не полагающиеся на людей, чтобы систему можно было тестировать и улучшать автоматически. При этом хочется иметь возможность закодировать желаемое поведение в простой и прозрачной форме, а это позволило бы лучше понимать принятие решений AI.

Звучит сингулярненько, стоит копнуть поглубже.

Overview

Авторы используют термин Scaling Supervision для техник, позволяющих людям более эффективно надзирать (в смысле supervise) за AI с малым количеством высококачественного человеческого фидбека (который, конечно, дорог). А в некоторых случаях машины и так уже лучше людей (и таких кейсов будет только больше), и за такими тоже надо научиться приглядывать, и scaling supervision может помочь.

RLHF уже по сути сделал шаг в этом направлении, потому что там сигнал оценки приходит не от человека, а от обученной на человеческих предпочтениях reward model. Но RLHF всё равно использует десятки тысяч человеческих оценок, а хочется попробовать предельный вариант без них. Вместо них файнтюнить AI модели на предмет безвредности (harmless) планируется с помощью конституции, содержащей порядка десятка простых принципов, выраженных человеческим языком. Кроме того все эти десятки тысяч человеческих оценок не позволяют пролить свет на суть training objective, потому что это сложно понять и суммаризовать. И как мы знаем, также это не защищает от Goal misgeneralization (https://www.group-telegram.com/ca/gonzo_ML.com/1160). Хочется прозрачности.

В предыдущей работе Anthropic про RLHF было показано, что есть серьёзный конфликт между полезностью (helpfulness) и безвредностью (harmlessness), что проявляется, например, в запросах к боту дать рецепт делания какой-нибудь мерзопакости. Там агент уходил по таким запросам в уклончивые ответы, потому что такое поведение вознаграждалось краудворкерами. Здесь хочется сделать, чтобы бот в таких случаях просто отказывался давать ответ, объясняя, почему он так поступает, без всякого увиливания.

BY gonzo-обзоры ML статей




Share with your friend now:
group-telegram.com/gonzo_ML/1285

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

For Oleksandra Tsekhanovska, head of the Hybrid Warfare Analytical Group at the Kyiv-based Ukraine Crisis Media Center, the effects are both near- and far-reaching. And indeed, volatility has been a hallmark of the market environment so far in 2022, with the S&P 500 still down more than 10% for the year-to-date after first sliding into a correction last month. The CBOE Volatility Index, or VIX, has held at a lofty level of more than 30. At the start of 2018, the company attempted to launch an Initial Coin Offering (ICO) which would enable it to enable payments (and earn the cash that comes from doing so). The initial signals were promising, especially given Telegram’s user base is already fairly crypto-savvy. It raised an initial tranche of cash – worth more than a billion dollars – to help develop the coin before opening sales to the public. Unfortunately, third-party sales of coins bought in those initial fundraising rounds raised the ire of the SEC, which brought the hammer down on the whole operation. In 2020, officials ordered Telegram to pay a fine of $18.5 million and hand back much of the cash that it had raised. Elsewhere, version 8.6 of Telegram integrates the in-app camera option into the gallery, while a new navigation bar gives quick access to photos, files, location sharing, and more. Ukrainian forces have since put up a strong resistance to the Russian troops amid the war that has left hundreds of Ukrainian civilians, including children, dead, according to the United Nations. Ukrainian and international officials have accused Russia of targeting civilian populations with shelling and bombardments.
from ca


Telegram gonzo-обзоры ML статей
FROM American