Telegram Group & Telegram Channel
#nlp #про_nlp #ai_alignment #длиннопост

🌸Какие ценности у языковых моделей?🌸

Часть 3. RLHF, классификаторы и ранжировщики
Часть 1 Часть 2 — базовые LLM и их ценности

В этой серии постов мы смотрим на то, какие реально усилия были предприняты для передачи "человеческих ценностей" языковым моделям, и какие. Настало время рассмотреть модели, воспроизводящие оценку человека автоматически: мы как бы хотим автоматизировать разметку, определить, за какие тематики штрафовать модели, какие высказывания не пропускать.

🟣InstructGPT — Reward model trained from human feedback
Одна из основных работ по теме, собственно, модель обобщает кумулятивную разметку по сразу нескольким параметрам:
— насколько генерация нравится, баллы от 1 до 7 (шкала Ликерта)
— разметка бинарных признаков: правильно ли выполнен запрос пользователя? содержит ли генерация что-то непримелемое? содержит ли контент сексуального характера? жестокость? поощряет жестокость, терроризм, вредительство? оскорбляет социальную группу? содержит вредоносный совет? содержит моральную оценку?

🟣OpenAssistant — Reward model trained from human feedback
Модель reward, обученная в проекте OpenAssistant. Похоже на InstructGPT, но разметка была другой:
5 категорий качества размечались по шкале от 1 до 5 (тоже шкала Ликерта)
качество, креативность, чувство юмора, вежливость и безобидность.
Сами модели позиционируются как пригодные для применения в вопросно-ответных системах и диалоговых системах, на размеченных данных виден перекос в сторону нулей:
https://huggingface.co/OpenAssistant/reward-model-deberta-v3-large
https://huggingface.co/datasets/openai/webgpt_comparisons

🟣ChatGPT OPT 350M DeepSpeed — Reward Model на открытых датасетах с человеческими оценками, в том числе датасете Anthropic (бинарная классификация, принятые и не принятые пользователями ответы нейросети), а также на синтетическом датасете с удачными и неудачными генерациями на основе GPT-J.
Плюс: лицензия Apache 2.0
https://huggingface.co/AdamG012/chat-opt-350m-reward-deepspeed

🟣Классификатор токсичности — мультиязычный классификаторс высокой точностью (94%), обученный на диалоговом датасете Kaggle-соревнования.
В датасете размечались реплики, содержащие угрозы, сексуальный контент, оскорбления и ненависть. ЧТо характерно, за основу взяли диалоги из правок Википедии (что? да! это популярный источник)
https://huggingface.co/citizenlab/distilbert-base-multilingual-cased-toxicity


🟣FlanT5 Large + SteamSHP — Модель flan t5-large, обученная на Стэнфордском датасете "человеческих предпочтений". В датасете размечены "полезность" и "безвредность" каждый реплики, а также помечены тематики дискриминационных высказываний, насилия, членовредительства, эксплуатации и других потенциально неприятных тем.
Предлагаемый прокси-способ оценки — можно брать перплексию такой языковой модели, обученных на human preferences, и по ней ранжировать лучший ответ другой нейросети.
https://huggingface.co/stanfordnlp/SteamSHP-flan-t5-large


🟣Все ревард-модели пополняются тут:
https://huggingface.co/models?other=reward-model
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/rybolos_channel/676
Create:
Last Update:

#nlp #про_nlp #ai_alignment #длиннопост

🌸Какие ценности у языковых моделей?🌸

Часть 3. RLHF, классификаторы и ранжировщики
Часть 1 Часть 2 — базовые LLM и их ценности

В этой серии постов мы смотрим на то, какие реально усилия были предприняты для передачи "человеческих ценностей" языковым моделям, и какие. Настало время рассмотреть модели, воспроизводящие оценку человека автоматически: мы как бы хотим автоматизировать разметку, определить, за какие тематики штрафовать модели, какие высказывания не пропускать.

🟣InstructGPT — Reward model trained from human feedback
Одна из основных работ по теме, собственно, модель обобщает кумулятивную разметку по сразу нескольким параметрам:
— насколько генерация нравится, баллы от 1 до 7 (шкала Ликерта)
— разметка бинарных признаков: правильно ли выполнен запрос пользователя? содержит ли генерация что-то непримелемое? содержит ли контент сексуального характера? жестокость? поощряет жестокость, терроризм, вредительство? оскорбляет социальную группу? содержит вредоносный совет? содержит моральную оценку?

🟣OpenAssistant — Reward model trained from human feedback
Модель reward, обученная в проекте OpenAssistant. Похоже на InstructGPT, но разметка была другой:
5 категорий качества размечались по шкале от 1 до 5 (тоже шкала Ликерта)
качество, креативность, чувство юмора, вежливость и безобидность.
Сами модели позиционируются как пригодные для применения в вопросно-ответных системах и диалоговых системах, на размеченных данных виден перекос в сторону нулей:
https://huggingface.co/OpenAssistant/reward-model-deberta-v3-large
https://huggingface.co/datasets/openai/webgpt_comparisons

🟣ChatGPT OPT 350M DeepSpeed — Reward Model на открытых датасетах с человеческими оценками, в том числе датасете Anthropic (бинарная классификация, принятые и не принятые пользователями ответы нейросети), а также на синтетическом датасете с удачными и неудачными генерациями на основе GPT-J.
Плюс: лицензия Apache 2.0
https://huggingface.co/AdamG012/chat-opt-350m-reward-deepspeed

🟣Классификатор токсичности — мультиязычный классификаторс высокой точностью (94%), обученный на диалоговом датасете Kaggle-соревнования.
В датасете размечались реплики, содержащие угрозы, сексуальный контент, оскорбления и ненависть. ЧТо характерно, за основу взяли диалоги из правок Википедии (что? да! это популярный источник)
https://huggingface.co/citizenlab/distilbert-base-multilingual-cased-toxicity


🟣FlanT5 Large + SteamSHP — Модель flan t5-large, обученная на Стэнфордском датасете "человеческих предпочтений". В датасете размечены "полезность" и "безвредность" каждый реплики, а также помечены тематики дискриминационных высказываний, насилия, членовредительства, эксплуатации и других потенциально неприятных тем.
Предлагаемый прокси-способ оценки — можно брать перплексию такой языковой модели, обученных на human preferences, и по ней ранжировать лучший ответ другой нейросети.
https://huggingface.co/stanfordnlp/SteamSHP-flan-t5-large


🟣Все ревард-модели пополняются тут:
https://huggingface.co/models?other=reward-model

BY Kali Novskaya


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/rybolos_channel/676

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In the past, it was noticed that through bulk SMSes, investors were induced to invest in or purchase the stocks of certain listed companies. In December 2021, Sebi officials had conducted a search and seizure operation at the premises of certain persons carrying out similar manipulative activities through Telegram channels. Recently, Durav wrote on his Telegram channel that users' right to privacy, in light of the war in Ukraine, is "sacred, now more than ever." "The inflation fire was already hot and now with war-driven inflation added to the mix, it will grow even hotter, setting off a scramble by the world’s central banks to pull back their stimulus earlier than expected," Chris Rupkey, chief economist at FWDBONDS, wrote in an email. "A spike in inflation rates has preceded economic recessions historically and this time prices have soared to levels that once again pose a threat to growth." But because group chats and the channel features are not end-to-end encrypted, Galperin said user privacy is potentially under threat.
from vn


Telegram Kali Novskaya
FROM American