Telegram Group & Telegram Channel
#nlp #про_nlp #ai_alignment #длиннопост

🌸Какие ценности у языковых моделей?🌸

Часть 3. RLHF, классификаторы и ранжировщики
Часть 1 Часть 2 — базовые LLM и их ценности

В этой серии постов мы смотрим на то, какие реально усилия были предприняты для передачи "человеческих ценностей" языковым моделям, и какие. Настало время рассмотреть модели, воспроизводящие оценку человека автоматически: мы как бы хотим автоматизировать разметку, определить, за какие тематики штрафовать модели, какие высказывания не пропускать.

🟣InstructGPT — Reward model trained from human feedback
Одна из основных работ по теме, собственно, модель обобщает кумулятивную разметку по сразу нескольким параметрам:
— насколько генерация нравится, баллы от 1 до 7 (шкала Ликерта)
— разметка бинарных признаков: правильно ли выполнен запрос пользователя? содержит ли генерация что-то непримелемое? содержит ли контент сексуального характера? жестокость? поощряет жестокость, терроризм, вредительство? оскорбляет социальную группу? содержит вредоносный совет? содержит моральную оценку?

🟣OpenAssistant — Reward model trained from human feedback
Модель reward, обученная в проекте OpenAssistant. Похоже на InstructGPT, но разметка была другой:
5 категорий качества размечались по шкале от 1 до 5 (тоже шкала Ликерта)
качество, креативность, чувство юмора, вежливость и безобидность.
Сами модели позиционируются как пригодные для применения в вопросно-ответных системах и диалоговых системах, на размеченных данных виден перекос в сторону нулей:
https://huggingface.co/OpenAssistant/reward-model-deberta-v3-large
https://huggingface.co/datasets/openai/webgpt_comparisons

🟣ChatGPT OPT 350M DeepSpeed — Reward Model на открытых датасетах с человеческими оценками, в том числе датасете Anthropic (бинарная классификация, принятые и не принятые пользователями ответы нейросети), а также на синтетическом датасете с удачными и неудачными генерациями на основе GPT-J.
Плюс: лицензия Apache 2.0
https://huggingface.co/AdamG012/chat-opt-350m-reward-deepspeed

🟣Классификатор токсичности — мультиязычный классификаторс высокой точностью (94%), обученный на диалоговом датасете Kaggle-соревнования.
В датасете размечались реплики, содержащие угрозы, сексуальный контент, оскорбления и ненависть. ЧТо характерно, за основу взяли диалоги из правок Википедии (что? да! это популярный источник)
https://huggingface.co/citizenlab/distilbert-base-multilingual-cased-toxicity


🟣FlanT5 Large + SteamSHP — Модель flan t5-large, обученная на Стэнфордском датасете "человеческих предпочтений". В датасете размечены "полезность" и "безвредность" каждый реплики, а также помечены тематики дискриминационных высказываний, насилия, членовредительства, эксплуатации и других потенциально неприятных тем.
Предлагаемый прокси-способ оценки — можно брать перплексию такой языковой модели, обученных на human preferences, и по ней ранжировать лучший ответ другой нейросети.
https://huggingface.co/stanfordnlp/SteamSHP-flan-t5-large


🟣Все ревард-модели пополняются тут:
https://huggingface.co/models?other=reward-model
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/rybolos_channel/676
Create:
Last Update:

#nlp #про_nlp #ai_alignment #длиннопост

🌸Какие ценности у языковых моделей?🌸

Часть 3. RLHF, классификаторы и ранжировщики
Часть 1 Часть 2 — базовые LLM и их ценности

В этой серии постов мы смотрим на то, какие реально усилия были предприняты для передачи "человеческих ценностей" языковым моделям, и какие. Настало время рассмотреть модели, воспроизводящие оценку человека автоматически: мы как бы хотим автоматизировать разметку, определить, за какие тематики штрафовать модели, какие высказывания не пропускать.

🟣InstructGPT — Reward model trained from human feedback
Одна из основных работ по теме, собственно, модель обобщает кумулятивную разметку по сразу нескольким параметрам:
— насколько генерация нравится, баллы от 1 до 7 (шкала Ликерта)
— разметка бинарных признаков: правильно ли выполнен запрос пользователя? содержит ли генерация что-то непримелемое? содержит ли контент сексуального характера? жестокость? поощряет жестокость, терроризм, вредительство? оскорбляет социальную группу? содержит вредоносный совет? содержит моральную оценку?

🟣OpenAssistant — Reward model trained from human feedback
Модель reward, обученная в проекте OpenAssistant. Похоже на InstructGPT, но разметка была другой:
5 категорий качества размечались по шкале от 1 до 5 (тоже шкала Ликерта)
качество, креативность, чувство юмора, вежливость и безобидность.
Сами модели позиционируются как пригодные для применения в вопросно-ответных системах и диалоговых системах, на размеченных данных виден перекос в сторону нулей:
https://huggingface.co/OpenAssistant/reward-model-deberta-v3-large
https://huggingface.co/datasets/openai/webgpt_comparisons

🟣ChatGPT OPT 350M DeepSpeed — Reward Model на открытых датасетах с человеческими оценками, в том числе датасете Anthropic (бинарная классификация, принятые и не принятые пользователями ответы нейросети), а также на синтетическом датасете с удачными и неудачными генерациями на основе GPT-J.
Плюс: лицензия Apache 2.0
https://huggingface.co/AdamG012/chat-opt-350m-reward-deepspeed

🟣Классификатор токсичности — мультиязычный классификаторс высокой точностью (94%), обученный на диалоговом датасете Kaggle-соревнования.
В датасете размечались реплики, содержащие угрозы, сексуальный контент, оскорбления и ненависть. ЧТо характерно, за основу взяли диалоги из правок Википедии (что? да! это популярный источник)
https://huggingface.co/citizenlab/distilbert-base-multilingual-cased-toxicity


🟣FlanT5 Large + SteamSHP — Модель flan t5-large, обученная на Стэнфордском датасете "человеческих предпочтений". В датасете размечены "полезность" и "безвредность" каждый реплики, а также помечены тематики дискриминационных высказываний, насилия, членовредительства, эксплуатации и других потенциально неприятных тем.
Предлагаемый прокси-способ оценки — можно брать перплексию такой языковой модели, обученных на human preferences, и по ней ранжировать лучший ответ другой нейросети.
https://huggingface.co/stanfordnlp/SteamSHP-flan-t5-large


🟣Все ревард-модели пополняются тут:
https://huggingface.co/models?other=reward-model

BY Kali Novskaya


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/rybolos_channel/676

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Meanwhile, a completely redesigned attachment menu appears when sending multiple photos or vides. Users can tap "X selected" (X being the number of items) at the top of the panel to preview how the album will look in the chat when it's sent, as well as rearrange or remove selected media. On Feb. 27, however, he admitted from his Russian-language account that "Telegram channels are increasingly becoming a source of unverified information related to Ukrainian events." To that end, when files are actively downloading, a new icon now appears in the Search bar that users can tap to view and manage downloads, pause and resume all downloads or just individual items, and select one to increase its priority or view it in a chat. Asked about its stance on disinformation, Telegram spokesperson Remi Vaughn told AFP: "As noted by our CEO, the sheer volume of information being shared on channels makes it extremely difficult to verify, so it's important that users double-check what they read." Perpetrators of these scams will create a public group on Telegram to promote these investment packages that are usually accompanied by fake testimonies and sometimes advertised as being Shariah-compliant. Interested investors will be asked to directly message the representatives to begin investing in the various investment packages offered.
from hk


Telegram Kali Novskaya
FROM American