Telegram Group & Telegram Channel
#nlp #про_nlp #ai_alignment #длиннопост

🌸Какие ценности у языковых моделей?🌸

Я уже несколько постов посвятила такой рубрике, как AI Alignment (раз, два, три), и сегодня хочу сравнить с вами доступную информацию о датасетах, критериях и reward-моделях у популярных LLM.

Так как инструментов "натаскивания" языковых моделей на человеческие ценности не так уж много, в серии постов будем разбирать, какие способы использовали раpработчики каждой модели.
Основных методов всего 3:
— положить в обучение базовой языковой модели датасет с "хорошими" и "плохими" примерами (либо вообще только с хорошими)
— обучить и добавить в качестве модуля сверху языковой модели специальный класификатор, который будет определять опасное поведение
— обучить ранжирующую или reward-модель, которая будет оценивать ответы языковой модели в процессе генерации и определять результат вывода

+ всегда сверху делается оценка полученного результата по разным критериям: токсичность, фактологичность, смещения, воспроизведение стереотипов и тд.
У всех моделей критерии оценки разные, на разных тестах, датасетах, что делает их справедливое сравнение сложным.

Часть 1. Базовые модели, SFT

🟣OpenAssistant — коллаборативный проект, supervised Fine-tune открытой языковой модели. В обучении — автоматическая чистка данных от спама, токсичности. Из токсичности отдельно выделили собственно "токсичность" (да, сепульки), непристойные сообщения, угрожающие, оскорбительные, нападающие на определенную личность или откровенно сексуального характера. Также из обучения были исключены персональные данные.
Минус: нет оценки на бенчмарках, популярных тестах, чтобы замерить количественно результаты модели. Зато проведена оценка на политический спектр: оказалось, что OpenAssistant — "proud conservative" 🙈
Статья
🟣Claude (Anthropic) — основной конкурент chatGPT на рынке платных LLM-as-a-service. Для обучения SFT отдельно собирались данные с разметкой полезности (helpfulness) и безобидности (harmlessness) ответов модели. При этом разметчиков отдельно просили придумать такие затравки, чтобы наиболее полезный совет был бы наиболее вредоносным, и так далее, и затем просили других участников разметки переделать ответы, чтобы сделать их лучше.
Отдельно проведены подробные тесты 1) HHH Alignment (Helpful, Honest, & Harmless) из бенчмарка BIG-Bench, 2) Bot Adversarial Dialogues, 3) плюс проверка на правдивое воспроизведение фактов, смещения и стереотипы (гендерные и не только). Факты остаются проблемной зоной для модели.
Статья
🟣OpenLLaMA — открытая альтерная альтенратива модели LLaMa. Обучена на корпусе RedPajama, бОльшая часть которого — нефильтрованный корпус интернета CommonCrawl. У модели проведена первичная оценка на стандартных датасетах, из alignment есть только оценка фактологичности, на ней метрики достаточно низкие (в районе 20%).
Статьи нет.
🟣CerebrasGPT, Pythia, StableLM, GPT-J — все обучались на готовом корпусе the Pile. В корпусе есть достаточно сильные смещения и оскорбительный контент.
Carabras-GPT сравнивается подробно с другими моделями на датасете CrowS-Pairs (гендер, религия, национальность и другие стереотипы) Cerebras-GPT 13B показывает неплохую степень стереотипности в среднем по всем категориям, и даже ниже, чем другие модели, на категориях расы ии возраста, однако отрабатывает хуже, чем GPT-3, OPT или LLaMa, на 6 категориях их 9.
Pythia измерена авторами на датасетах WinoBias (гендерные стереотипы) и CrowS-Pairs. Авторы отмечают, что оба датасета не подходят под измерение генеративных LLM (спорно!), поэтому и метрики не очень. Метрики и правда так себе.
У StableLM и GPT-J нет даже статьи.
Статья CerebrasGPT Pythia
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/rybolos_channel/669
Create:
Last Update:

#nlp #про_nlp #ai_alignment #длиннопост

🌸Какие ценности у языковых моделей?🌸

Я уже несколько постов посвятила такой рубрике, как AI Alignment (раз, два, три), и сегодня хочу сравнить с вами доступную информацию о датасетах, критериях и reward-моделях у популярных LLM.

Так как инструментов "натаскивания" языковых моделей на человеческие ценности не так уж много, в серии постов будем разбирать, какие способы использовали раpработчики каждой модели.
Основных методов всего 3:
— положить в обучение базовой языковой модели датасет с "хорошими" и "плохими" примерами (либо вообще только с хорошими)
— обучить и добавить в качестве модуля сверху языковой модели специальный класификатор, который будет определять опасное поведение
— обучить ранжирующую или reward-модель, которая будет оценивать ответы языковой модели в процессе генерации и определять результат вывода

+ всегда сверху делается оценка полученного результата по разным критериям: токсичность, фактологичность, смещения, воспроизведение стереотипов и тд.
У всех моделей критерии оценки разные, на разных тестах, датасетах, что делает их справедливое сравнение сложным.

Часть 1. Базовые модели, SFT

🟣OpenAssistant — коллаборативный проект, supervised Fine-tune открытой языковой модели. В обучении — автоматическая чистка данных от спама, токсичности. Из токсичности отдельно выделили собственно "токсичность" (да, сепульки), непристойные сообщения, угрожающие, оскорбительные, нападающие на определенную личность или откровенно сексуального характера. Также из обучения были исключены персональные данные.
Минус: нет оценки на бенчмарках, популярных тестах, чтобы замерить количественно результаты модели. Зато проведена оценка на политический спектр: оказалось, что OpenAssistant — "proud conservative" 🙈
Статья
🟣Claude (Anthropic) — основной конкурент chatGPT на рынке платных LLM-as-a-service. Для обучения SFT отдельно собирались данные с разметкой полезности (helpfulness) и безобидности (harmlessness) ответов модели. При этом разметчиков отдельно просили придумать такие затравки, чтобы наиболее полезный совет был бы наиболее вредоносным, и так далее, и затем просили других участников разметки переделать ответы, чтобы сделать их лучше.
Отдельно проведены подробные тесты 1) HHH Alignment (Helpful, Honest, & Harmless) из бенчмарка BIG-Bench, 2) Bot Adversarial Dialogues, 3) плюс проверка на правдивое воспроизведение фактов, смещения и стереотипы (гендерные и не только). Факты остаются проблемной зоной для модели.
Статья
🟣OpenLLaMA — открытая альтерная альтенратива модели LLaMa. Обучена на корпусе RedPajama, бОльшая часть которого — нефильтрованный корпус интернета CommonCrawl. У модели проведена первичная оценка на стандартных датасетах, из alignment есть только оценка фактологичности, на ней метрики достаточно низкие (в районе 20%).
Статьи нет.
🟣CerebrasGPT, Pythia, StableLM, GPT-J — все обучались на готовом корпусе the Pile. В корпусе есть достаточно сильные смещения и оскорбительный контент.
Carabras-GPT сравнивается подробно с другими моделями на датасете CrowS-Pairs (гендер, религия, национальность и другие стереотипы) Cerebras-GPT 13B показывает неплохую степень стереотипности в среднем по всем категориям, и даже ниже, чем другие модели, на категориях расы ии возраста, однако отрабатывает хуже, чем GPT-3, OPT или LLaMa, на 6 категориях их 9.
Pythia измерена авторами на датасетах WinoBias (гендерные стереотипы) и CrowS-Pairs. Авторы отмечают, что оба датасета не подходят под измерение генеративных LLM (спорно!), поэтому и метрики не очень. Метрики и правда так себе.
У StableLM и GPT-J нет даже статьи.
Статья CerebrasGPT Pythia

BY Kali Novskaya


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/rybolos_channel/669

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Official government accounts have also spread fake fact checks. An official Twitter account for the Russia diplomatic mission in Geneva shared a fake debunking video claiming without evidence that "Western and Ukrainian media are creating thousands of fake news on Russia every day." The video, which has amassed almost 30,000 views, offered a "how-to" spot misinformation. Channels are not fully encrypted, end-to-end. All communications on a Telegram channel can be seen by anyone on the channel and are also visible to Telegram. Telegram may be asked by a government to hand over the communications from a channel. Telegram has a history of standing up to Russian government requests for data, but how comfortable you are relying on that history to predict future behavior is up to you. Because Telegram has this data, it may also be stolen by hackers or leaked by an internal employee. Founder Pavel Durov says tech is meant to set you free "He has to start being more proactive and to find a real solution to this situation, not stay in standby without interfering. It's a very irresponsible position from the owner of Telegram," she said. The Russian invasion of Ukraine has been a driving force in markets for the past few weeks.
from ye


Telegram Kali Novskaya
FROM American