Telegram Group & Telegram Channel
#nlp #про_nlp #ai_alignment #длиннопост

🌸Какие ценности у языковых моделей?🌸

Часть 3. RLHF, классификаторы и ранжировщики
Часть 1 Часть 2 — базовые LLM и их ценности

В этой серии постов мы смотрим на то, какие реально усилия были предприняты для передачи "человеческих ценностей" языковым моделям, и какие. Настало время рассмотреть модели, воспроизводящие оценку человека автоматически: мы как бы хотим автоматизировать разметку, определить, за какие тематики штрафовать модели, какие высказывания не пропускать.

🟣InstructGPT — Reward model trained from human feedback
Одна из основных работ по теме, собственно, модель обобщает кумулятивную разметку по сразу нескольким параметрам:
— насколько генерация нравится, баллы от 1 до 7 (шкала Ликерта)
— разметка бинарных признаков: правильно ли выполнен запрос пользователя? содержит ли генерация что-то непримелемое? содержит ли контент сексуального характера? жестокость? поощряет жестокость, терроризм, вредительство? оскорбляет социальную группу? содержит вредоносный совет? содержит моральную оценку?

🟣OpenAssistant — Reward model trained from human feedback
Модель reward, обученная в проекте OpenAssistant. Похоже на InstructGPT, но разметка была другой:
5 категорий качества размечались по шкале от 1 до 5 (тоже шкала Ликерта)
качество, креативность, чувство юмора, вежливость и безобидность.
Сами модели позиционируются как пригодные для применения в вопросно-ответных системах и диалоговых системах, на размеченных данных виден перекос в сторону нулей:
https://huggingface.co/OpenAssistant/reward-model-deberta-v3-large
https://huggingface.co/datasets/openai/webgpt_comparisons

🟣ChatGPT OPT 350M DeepSpeed — Reward Model на открытых датасетах с человеческими оценками, в том числе датасете Anthropic (бинарная классификация, принятые и не принятые пользователями ответы нейросети), а также на синтетическом датасете с удачными и неудачными генерациями на основе GPT-J.
Плюс: лицензия Apache 2.0
https://huggingface.co/AdamG012/chat-opt-350m-reward-deepspeed

🟣Классификатор токсичности — мультиязычный классификаторс высокой точностью (94%), обученный на диалоговом датасете Kaggle-соревнования.
В датасете размечались реплики, содержащие угрозы, сексуальный контент, оскорбления и ненависть. ЧТо характерно, за основу взяли диалоги из правок Википедии (что? да! это популярный источник)
https://huggingface.co/citizenlab/distilbert-base-multilingual-cased-toxicity


🟣FlanT5 Large + SteamSHP — Модель flan t5-large, обученная на Стэнфордском датасете "человеческих предпочтений". В датасете размечены "полезность" и "безвредность" каждый реплики, а также помечены тематики дискриминационных высказываний, насилия, членовредительства, эксплуатации и других потенциально неприятных тем.
Предлагаемый прокси-способ оценки — можно брать перплексию такой языковой модели, обученных на human preferences, и по ней ранжировать лучший ответ другой нейросети.
https://huggingface.co/stanfordnlp/SteamSHP-flan-t5-large


🟣Все ревард-модели пополняются тут:
https://huggingface.co/models?other=reward-model
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/rybolos_channel/676
Create:
Last Update:

#nlp #про_nlp #ai_alignment #длиннопост

🌸Какие ценности у языковых моделей?🌸

Часть 3. RLHF, классификаторы и ранжировщики
Часть 1 Часть 2 — базовые LLM и их ценности

В этой серии постов мы смотрим на то, какие реально усилия были предприняты для передачи "человеческих ценностей" языковым моделям, и какие. Настало время рассмотреть модели, воспроизводящие оценку человека автоматически: мы как бы хотим автоматизировать разметку, определить, за какие тематики штрафовать модели, какие высказывания не пропускать.

🟣InstructGPT — Reward model trained from human feedback
Одна из основных работ по теме, собственно, модель обобщает кумулятивную разметку по сразу нескольким параметрам:
— насколько генерация нравится, баллы от 1 до 7 (шкала Ликерта)
— разметка бинарных признаков: правильно ли выполнен запрос пользователя? содержит ли генерация что-то непримелемое? содержит ли контент сексуального характера? жестокость? поощряет жестокость, терроризм, вредительство? оскорбляет социальную группу? содержит вредоносный совет? содержит моральную оценку?

🟣OpenAssistant — Reward model trained from human feedback
Модель reward, обученная в проекте OpenAssistant. Похоже на InstructGPT, но разметка была другой:
5 категорий качества размечались по шкале от 1 до 5 (тоже шкала Ликерта)
качество, креативность, чувство юмора, вежливость и безобидность.
Сами модели позиционируются как пригодные для применения в вопросно-ответных системах и диалоговых системах, на размеченных данных виден перекос в сторону нулей:
https://huggingface.co/OpenAssistant/reward-model-deberta-v3-large
https://huggingface.co/datasets/openai/webgpt_comparisons

🟣ChatGPT OPT 350M DeepSpeed — Reward Model на открытых датасетах с человеческими оценками, в том числе датасете Anthropic (бинарная классификация, принятые и не принятые пользователями ответы нейросети), а также на синтетическом датасете с удачными и неудачными генерациями на основе GPT-J.
Плюс: лицензия Apache 2.0
https://huggingface.co/AdamG012/chat-opt-350m-reward-deepspeed

🟣Классификатор токсичности — мультиязычный классификаторс высокой точностью (94%), обученный на диалоговом датасете Kaggle-соревнования.
В датасете размечались реплики, содержащие угрозы, сексуальный контент, оскорбления и ненависть. ЧТо характерно, за основу взяли диалоги из правок Википедии (что? да! это популярный источник)
https://huggingface.co/citizenlab/distilbert-base-multilingual-cased-toxicity


🟣FlanT5 Large + SteamSHP — Модель flan t5-large, обученная на Стэнфордском датасете "человеческих предпочтений". В датасете размечены "полезность" и "безвредность" каждый реплики, а также помечены тематики дискриминационных высказываний, насилия, членовредительства, эксплуатации и других потенциально неприятных тем.
Предлагаемый прокси-способ оценки — можно брать перплексию такой языковой модели, обученных на human preferences, и по ней ранжировать лучший ответ другой нейросети.
https://huggingface.co/stanfordnlp/SteamSHP-flan-t5-large


🟣Все ревард-модели пополняются тут:
https://huggingface.co/models?other=reward-model

BY Kali Novskaya


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/rybolos_channel/676

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In the United States, Telegram's lower public profile has helped it mostly avoid high level scrutiny from Congress, but it has not gone unnoticed. He floated the idea of restricting the use of Telegram in Ukraine and Russia, a suggestion that was met with fierce opposition from users. Shortly after, Durov backed off the idea. Under the Sebi Act, the regulator has the power to carry out search and seizure of books, registers, documents including electronics and digital devices from any person associated with the securities market. Pavel Durov, Telegram's CEO, is known as "the Russian Mark Zuckerberg," for co-founding VKontakte, which is Russian for "in touch," a Facebook imitator that became the country's most popular social networking site. In a message on his Telegram channel recently recounting the episode, Durov wrote: "I lost my company and my home, but would do it again – without hesitation."
from ms


Telegram Kali Novskaya
FROM American