Telegram Group & Telegram Channel
#nlp #про_nlp #ai_alignment #длиннопост

🌸Какие ценности у языковых моделей?🌸

Часть 3. RLHF, классификаторы и ранжировщики
Часть 1 Часть 2 — базовые LLM и их ценности

В этой серии постов мы смотрим на то, какие реально усилия были предприняты для передачи "человеческих ценностей" языковым моделям, и какие. Настало время рассмотреть модели, воспроизводящие оценку человека автоматически: мы как бы хотим автоматизировать разметку, определить, за какие тематики штрафовать модели, какие высказывания не пропускать.

🟣InstructGPT — Reward model trained from human feedback
Одна из основных работ по теме, собственно, модель обобщает кумулятивную разметку по сразу нескольким параметрам:
— насколько генерация нравится, баллы от 1 до 7 (шкала Ликерта)
— разметка бинарных признаков: правильно ли выполнен запрос пользователя? содержит ли генерация что-то непримелемое? содержит ли контент сексуального характера? жестокость? поощряет жестокость, терроризм, вредительство? оскорбляет социальную группу? содержит вредоносный совет? содержит моральную оценку?

🟣OpenAssistant — Reward model trained from human feedback
Модель reward, обученная в проекте OpenAssistant. Похоже на InstructGPT, но разметка была другой:
5 категорий качества размечались по шкале от 1 до 5 (тоже шкала Ликерта)
качество, креативность, чувство юмора, вежливость и безобидность.
Сами модели позиционируются как пригодные для применения в вопросно-ответных системах и диалоговых системах, на размеченных данных виден перекос в сторону нулей:
https://huggingface.co/OpenAssistant/reward-model-deberta-v3-large
https://huggingface.co/datasets/openai/webgpt_comparisons

🟣ChatGPT OPT 350M DeepSpeed — Reward Model на открытых датасетах с человеческими оценками, в том числе датасете Anthropic (бинарная классификация, принятые и не принятые пользователями ответы нейросети), а также на синтетическом датасете с удачными и неудачными генерациями на основе GPT-J.
Плюс: лицензия Apache 2.0
https://huggingface.co/AdamG012/chat-opt-350m-reward-deepspeed

🟣Классификатор токсичности — мультиязычный классификаторс высокой точностью (94%), обученный на диалоговом датасете Kaggle-соревнования.
В датасете размечались реплики, содержащие угрозы, сексуальный контент, оскорбления и ненависть. ЧТо характерно, за основу взяли диалоги из правок Википедии (что? да! это популярный источник)
https://huggingface.co/citizenlab/distilbert-base-multilingual-cased-toxicity


🟣FlanT5 Large + SteamSHP — Модель flan t5-large, обученная на Стэнфордском датасете "человеческих предпочтений". В датасете размечены "полезность" и "безвредность" каждый реплики, а также помечены тематики дискриминационных высказываний, насилия, членовредительства, эксплуатации и других потенциально неприятных тем.
Предлагаемый прокси-способ оценки — можно брать перплексию такой языковой модели, обученных на human preferences, и по ней ранжировать лучший ответ другой нейросети.
https://huggingface.co/stanfordnlp/SteamSHP-flan-t5-large


🟣Все ревард-модели пополняются тут:
https://huggingface.co/models?other=reward-model
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/rybolos_channel/676
Create:
Last Update:

#nlp #про_nlp #ai_alignment #длиннопост

🌸Какие ценности у языковых моделей?🌸

Часть 3. RLHF, классификаторы и ранжировщики
Часть 1 Часть 2 — базовые LLM и их ценности

В этой серии постов мы смотрим на то, какие реально усилия были предприняты для передачи "человеческих ценностей" языковым моделям, и какие. Настало время рассмотреть модели, воспроизводящие оценку человека автоматически: мы как бы хотим автоматизировать разметку, определить, за какие тематики штрафовать модели, какие высказывания не пропускать.

🟣InstructGPT — Reward model trained from human feedback
Одна из основных работ по теме, собственно, модель обобщает кумулятивную разметку по сразу нескольким параметрам:
— насколько генерация нравится, баллы от 1 до 7 (шкала Ликерта)
— разметка бинарных признаков: правильно ли выполнен запрос пользователя? содержит ли генерация что-то непримелемое? содержит ли контент сексуального характера? жестокость? поощряет жестокость, терроризм, вредительство? оскорбляет социальную группу? содержит вредоносный совет? содержит моральную оценку?

🟣OpenAssistant — Reward model trained from human feedback
Модель reward, обученная в проекте OpenAssistant. Похоже на InstructGPT, но разметка была другой:
5 категорий качества размечались по шкале от 1 до 5 (тоже шкала Ликерта)
качество, креативность, чувство юмора, вежливость и безобидность.
Сами модели позиционируются как пригодные для применения в вопросно-ответных системах и диалоговых системах, на размеченных данных виден перекос в сторону нулей:
https://huggingface.co/OpenAssistant/reward-model-deberta-v3-large
https://huggingface.co/datasets/openai/webgpt_comparisons

🟣ChatGPT OPT 350M DeepSpeed — Reward Model на открытых датасетах с человеческими оценками, в том числе датасете Anthropic (бинарная классификация, принятые и не принятые пользователями ответы нейросети), а также на синтетическом датасете с удачными и неудачными генерациями на основе GPT-J.
Плюс: лицензия Apache 2.0
https://huggingface.co/AdamG012/chat-opt-350m-reward-deepspeed

🟣Классификатор токсичности — мультиязычный классификаторс высокой точностью (94%), обученный на диалоговом датасете Kaggle-соревнования.
В датасете размечались реплики, содержащие угрозы, сексуальный контент, оскорбления и ненависть. ЧТо характерно, за основу взяли диалоги из правок Википедии (что? да! это популярный источник)
https://huggingface.co/citizenlab/distilbert-base-multilingual-cased-toxicity


🟣FlanT5 Large + SteamSHP — Модель flan t5-large, обученная на Стэнфордском датасете "человеческих предпочтений". В датасете размечены "полезность" и "безвредность" каждый реплики, а также помечены тематики дискриминационных высказываний, насилия, членовредительства, эксплуатации и других потенциально неприятных тем.
Предлагаемый прокси-способ оценки — можно брать перплексию такой языковой модели, обученных на human preferences, и по ней ранжировать лучший ответ другой нейросети.
https://huggingface.co/stanfordnlp/SteamSHP-flan-t5-large


🟣Все ревард-модели пополняются тут:
https://huggingface.co/models?other=reward-model

BY Kali Novskaya


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/rybolos_channel/676

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

For Oleksandra Tsekhanovska, head of the Hybrid Warfare Analytical Group at the Kyiv-based Ukraine Crisis Media Center, the effects are both near- and far-reaching. Telegram boasts 500 million users, who share information individually and in groups in relative security. But Telegram's use as a one-way broadcast channel — which followers can join but not reply to — means content from inauthentic accounts can easily reach large, captive and eager audiences. Anastasia Vlasova/Getty Images 'Wild West' Emerson Brooking, a disinformation expert at the Atlantic Council's Digital Forensic Research Lab, said: "Back in the Wild West period of content moderation, like 2014 or 2015, maybe they could have gotten away with it, but it stands in marked contrast with how other companies run themselves today."
from pl


Telegram Kali Novskaya
FROM American