group-telegram.com/rybolos_channel/676
Last Update:
#nlp #про_nlp #ai_alignment #длиннопост
🌸Какие ценности у языковых моделей?🌸
Часть 3. RLHF, классификаторы и ранжировщики
Часть 1 Часть 2 — базовые LLM и их ценности
В этой серии постов мы смотрим на то, какие реально усилия были предприняты для передачи "человеческих ценностей" языковым моделям, и какие. Настало время рассмотреть модели, воспроизводящие оценку человека автоматически: мы как бы хотим автоматизировать разметку, определить, за какие тематики штрафовать модели, какие высказывания не пропускать.
Одна из основных работ по теме, собственно, модель обобщает кумулятивную разметку по сразу нескольким параметрам:
— насколько генерация нравится, баллы от 1 до 7 (шкала Ликерта)
— разметка бинарных признаков: правильно ли выполнен запрос пользователя? содержит ли генерация что-то непримелемое? содержит ли контент сексуального характера? жестокость? поощряет жестокость, терроризм, вредительство? оскорбляет социальную группу? содержит вредоносный совет? содержит моральную оценку?
Модель reward, обученная в проекте OpenAssistant. Похоже на InstructGPT, но разметка была другой:
5 категорий качества размечались по шкале от 1 до 5 (тоже шкала Ликерта)
качество, креативность, чувство юмора, вежливость и безобидность.
Сами модели позиционируются как пригодные для применения в вопросно-ответных системах и диалоговых системах, на размеченных данных виден перекос в сторону нулей:
https://huggingface.co/OpenAssistant/reward-model-deberta-v3-large
https://huggingface.co/datasets/openai/webgpt_comparisons
Плюс: лицензия Apache 2.0
https://huggingface.co/AdamG012/chat-opt-350m-reward-deepspeed
В датасете размечались реплики, содержащие угрозы, сексуальный контент, оскорбления и ненависть. ЧТо характерно, за основу взяли диалоги из правок Википедии (что? да! это популярный источник)
https://huggingface.co/citizenlab/distilbert-base-multilingual-cased-toxicity
Предлагаемый прокси-способ оценки — можно брать перплексию такой языковой модели, обученных на human preferences, и по ней ранжировать лучший ответ другой нейросети.
https://huggingface.co/stanfordnlp/SteamSHP-flan-t5-large
https://huggingface.co/models?other=reward-model