Telegram Group & Telegram Channel
[DeepMind Sparrow] Improving alignment of dialogue agents via targeted human judgements
Amelia Glaese, Nat McAleese, Maja Trębacz, John Aslanides, Vlad Firoiu, Timo Ewalds, Maribeth Rauh, Laura Weidinger, Martin Chadwick, Phoebe Thacker, Lucy Campbell-Gillingham, Jonathan Uesato, Po-Sen Huang, Ramona Comanescu, Fan Yang, Abigail See, Sumanth Dathathri, Rory Greig, Charlie Chen, Doug Fritz, Jaume Sanchez Elias, Richard Green, Soňa Mokrá, Nicholas Fernando, Boxi Wu, Rachel Foley, Susannah Young, Iason Gabriel, William Isaac, John Mellor, Demis Hassabis, Koray Kavukcuoglu, Lisa Anne Hendricks, Geoffrey Irving
Статья: https://arxiv.org/abs/2209.14375
Пост в блоге: https://www.deepmind.com/blog/building-safer-dialogue-agents

Ещё одна важная модель прошлого года от DeepMind, которая, как и гугловая LaMDA (https://www.group-telegram.com/ms/gonzo_ML.com/1229) может в скором времени оказаться где-то в поиске Гугла (обе, кстати, появились раньше ChatGPT).

Как и LaMDA, это retrieval-augmented модель (что на порядок круче ChatGPT) обученная через RLHF (reinforcement learning from human feedback), как и потомство InstructGPT (https://arxiv.org/abs/2203.02155) от OpenAI, включая ChatGPT. Причём multi-objective RLHF. Как полагается, модель названа в честь какой-нибудь животинки, на этот раз воробья (Sparrow).

Модель нацелена на information-seeking dialogue, не на простую болтовню, потому что для этого случая контекст и критерии успеха лучше определены. Авторы задаются для диалога верхнеуровневыми целями helpful, correct, и harmless, и детализируют каждую набором правил. Список большой, на два экрана. Эти правила напоминают safety objectives из работы про LaMDA, но сделаны с учётом собственного процесса аннотирования диалогов. Как примеры там есть правила про отсутствие стереотипов, сексуальной агрессии, хейта и харассмента, медицинских/юридических/финансовых советов, теорий заговора, повторов. Из более интересного есть набор правил про антропоморфизацию и не претендовать на то, чтобы быть человеком, иметь эмоции или мнения, строить отношения с пользователем, или иметь тело (этот набор правил проистекает из работы https://arxiv.org/abs/2112.04359, секция 2.5.2).

В качестве модели взята Шиншилла (https://www.group-telegram.com/ms/gonzo_ML.com/1216) на 70B параметров с хорошим промптом. Это модифицированный промпт на целый экран из работы про Gopher (https://www.group-telegram.com/ms/gonzo_ML.com/742), настраивающий на диалог между агентом и пользователем (будет отдельной картинкой в канале после поста). Такая модель называется DPC (Dialogue-Prompted Chinchilla).

Дополнительно в диалог включаются ещё два участника: Search Query для запроса в Гугл, и Search Result для результата из поиска. Это прикольный вариант интеграции с поиском через универсальный текстовый интерфейс, который не требует архитектурных изменений модели. LaMDA тоже близким по сути методом интегрировалась, только там toolset дёргался всегда. Можно делать разные модели, которые ходят в поиск всегда или не ходят вообще, которые могут выбирать, пойти в поиск или выдать фразу агента, или которые генерят несколько вариантов ответа с поиском и без и по ранжированию через reward model (RM) выбирают лучший.

Человеки общаются с DPC в двух сеттингах:

1. Per-turn response preference. Есть неполный диалог и множество вариантов ответа, человек выбирает лучший вариант продолжения. По этим данным можно оценить preference rate, то есть с какой частотой одну модель предпочитают другой. На этом обучается Elo Preference RM (reward model), как прокси для helpfulness.

2. Adversarial probing. Здесь человеку дают одно из правил, и он должен сподвигнуть модель его нарушить. По этим данным можно оценить rule violation rate. На этом потом обучается Rule RM, которая предсказывает человеческую оценку нарушения правил.

О благополучии аннотаторов заботились, этому посвящен отдельный абзац и приложение. Дизайн эксперимента и вопрос оплаты оценивал этический комитет. Поскольку приходилось работать с разными чувствительными темами, наблюдали за well-being через опросники, и за пропуск задач из этой группы штрафов не было.



group-telegram.com/gonzo_ML/1237
Create:
Last Update:

[DeepMind Sparrow] Improving alignment of dialogue agents via targeted human judgements
Amelia Glaese, Nat McAleese, Maja Trębacz, John Aslanides, Vlad Firoiu, Timo Ewalds, Maribeth Rauh, Laura Weidinger, Martin Chadwick, Phoebe Thacker, Lucy Campbell-Gillingham, Jonathan Uesato, Po-Sen Huang, Ramona Comanescu, Fan Yang, Abigail See, Sumanth Dathathri, Rory Greig, Charlie Chen, Doug Fritz, Jaume Sanchez Elias, Richard Green, Soňa Mokrá, Nicholas Fernando, Boxi Wu, Rachel Foley, Susannah Young, Iason Gabriel, William Isaac, John Mellor, Demis Hassabis, Koray Kavukcuoglu, Lisa Anne Hendricks, Geoffrey Irving
Статья: https://arxiv.org/abs/2209.14375
Пост в блоге: https://www.deepmind.com/blog/building-safer-dialogue-agents

Ещё одна важная модель прошлого года от DeepMind, которая, как и гугловая LaMDA (https://www.group-telegram.com/ms/gonzo_ML.com/1229) может в скором времени оказаться где-то в поиске Гугла (обе, кстати, появились раньше ChatGPT).

Как и LaMDA, это retrieval-augmented модель (что на порядок круче ChatGPT) обученная через RLHF (reinforcement learning from human feedback), как и потомство InstructGPT (https://arxiv.org/abs/2203.02155) от OpenAI, включая ChatGPT. Причём multi-objective RLHF. Как полагается, модель названа в честь какой-нибудь животинки, на этот раз воробья (Sparrow).

Модель нацелена на information-seeking dialogue, не на простую болтовню, потому что для этого случая контекст и критерии успеха лучше определены. Авторы задаются для диалога верхнеуровневыми целями helpful, correct, и harmless, и детализируют каждую набором правил. Список большой, на два экрана. Эти правила напоминают safety objectives из работы про LaMDA, но сделаны с учётом собственного процесса аннотирования диалогов. Как примеры там есть правила про отсутствие стереотипов, сексуальной агрессии, хейта и харассмента, медицинских/юридических/финансовых советов, теорий заговора, повторов. Из более интересного есть набор правил про антропоморфизацию и не претендовать на то, чтобы быть человеком, иметь эмоции или мнения, строить отношения с пользователем, или иметь тело (этот набор правил проистекает из работы https://arxiv.org/abs/2112.04359, секция 2.5.2).

В качестве модели взята Шиншилла (https://www.group-telegram.com/ms/gonzo_ML.com/1216) на 70B параметров с хорошим промптом. Это модифицированный промпт на целый экран из работы про Gopher (https://www.group-telegram.com/ms/gonzo_ML.com/742), настраивающий на диалог между агентом и пользователем (будет отдельной картинкой в канале после поста). Такая модель называется DPC (Dialogue-Prompted Chinchilla).

Дополнительно в диалог включаются ещё два участника: Search Query для запроса в Гугл, и Search Result для результата из поиска. Это прикольный вариант интеграции с поиском через универсальный текстовый интерфейс, который не требует архитектурных изменений модели. LaMDA тоже близким по сути методом интегрировалась, только там toolset дёргался всегда. Можно делать разные модели, которые ходят в поиск всегда или не ходят вообще, которые могут выбирать, пойти в поиск или выдать фразу агента, или которые генерят несколько вариантов ответа с поиском и без и по ранжированию через reward model (RM) выбирают лучший.

Человеки общаются с DPC в двух сеттингах:

1. Per-turn response preference. Есть неполный диалог и множество вариантов ответа, человек выбирает лучший вариант продолжения. По этим данным можно оценить preference rate, то есть с какой частотой одну модель предпочитают другой. На этом обучается Elo Preference RM (reward model), как прокси для helpfulness.

2. Adversarial probing. Здесь человеку дают одно из правил, и он должен сподвигнуть модель его нарушить. По этим данным можно оценить rule violation rate. На этом потом обучается Rule RM, которая предсказывает человеческую оценку нарушения правил.

О благополучии аннотаторов заботились, этому посвящен отдельный абзац и приложение. Дизайн эксперимента и вопрос оплаты оценивал этический комитет. Поскольку приходилось работать с разными чувствительными темами, наблюдали за well-being через опросники, и за пропуск задач из этой группы штрафов не было.

BY gonzo-обзоры ML статей




Share with your friend now:
group-telegram.com/gonzo_ML/1237

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

But Telegram says people want to keep their chat history when they get a new phone, and they like having a data backup that will sync their chats across multiple devices. And that is why they let people choose whether they want their messages to be encrypted or not. When not turned on, though, chats are stored on Telegram's services, which are scattered throughout the world. But it has "disclosed 0 bytes of user data to third parties, including governments," Telegram states on its website. These entities are reportedly operating nine Telegram channels with more than five million subscribers to whom they were making recommendations on selected listed scrips. Such recommendations induced the investors to deal in the said scrips, thereby creating artificial volume and price rise. Since its launch in 2013, Telegram has grown from a simple messaging app to a broadcast network. Its user base isn’t as vast as WhatsApp’s, and its broadcast platform is a fraction the size of Twitter, but it’s nonetheless showing its use. While Telegram has been embroiled in controversy for much of its life, it has become a vital source of communication during the invasion of Ukraine. But, if all of this is new to you, let us explain, dear friends, what on Earth a Telegram is meant to be, and why you should, or should not, need to care. So, uh, whenever I hear about Telegram, it’s always in relation to something bad. What gives? The next bit isn’t clear, but Durov reportedly claimed that his resignation, dated March 21st, was an April Fools’ prank. TechCrunch implies that it was a matter of principle, but it’s hard to be clear on the wheres, whos and whys. Similarly, on April 17th, the Moscow Times quoted Durov as saying that he quit the company after being pressured to reveal account details about Ukrainians protesting the then-president Viktor Yanukovych.
from ms


Telegram gonzo-обзоры ML статей
FROM American