Telegram Group & Telegram Channel
#nlp #про_nlp #ai_alignment #длиннопост

🌸Какие ценности у языковых моделей?🌸

Я уже несколько постов посвятила такой рубрике, как AI Alignment (раз, два, три), и сегодня хочу сравнить с вами доступную информацию о датасетах, критериях и reward-моделях у популярных LLM.

Так как инструментов "натаскивания" языковых моделей на человеческие ценности не так уж много, в серии постов будем разбирать, какие способы использовали раpработчики каждой модели.
Основных методов всего 3:
— положить в обучение базовой языковой модели датасет с "хорошими" и "плохими" примерами (либо вообще только с хорошими)
— обучить и добавить в качестве модуля сверху языковой модели специальный класификатор, который будет определять опасное поведение
— обучить ранжирующую или reward-модель, которая будет оценивать ответы языковой модели в процессе генерации и определять результат вывода

+ всегда сверху делается оценка полученного результата по разным критериям: токсичность, фактологичность, смещения, воспроизведение стереотипов и тд.
У всех моделей критерии оценки разные, на разных тестах, датасетах, что делает их справедливое сравнение сложным.

Часть 1. Базовые модели, SFT

🟣OpenAssistant — коллаборативный проект, supervised Fine-tune открытой языковой модели. В обучении — автоматическая чистка данных от спама, токсичности. Из токсичности отдельно выделили собственно "токсичность" (да, сепульки), непристойные сообщения, угрожающие, оскорбительные, нападающие на определенную личность или откровенно сексуального характера. Также из обучения были исключены персональные данные.
Минус: нет оценки на бенчмарках, популярных тестах, чтобы замерить количественно результаты модели. Зато проведена оценка на политический спектр: оказалось, что OpenAssistant — "proud conservative" 🙈
Статья
🟣Claude (Anthropic) — основной конкурент chatGPT на рынке платных LLM-as-a-service. Для обучения SFT отдельно собирались данные с разметкой полезности (helpfulness) и безобидности (harmlessness) ответов модели. При этом разметчиков отдельно просили придумать такие затравки, чтобы наиболее полезный совет был бы наиболее вредоносным, и так далее, и затем просили других участников разметки переделать ответы, чтобы сделать их лучше.
Отдельно проведены подробные тесты 1) HHH Alignment (Helpful, Honest, & Harmless) из бенчмарка BIG-Bench, 2) Bot Adversarial Dialogues, 3) плюс проверка на правдивое воспроизведение фактов, смещения и стереотипы (гендерные и не только). Факты остаются проблемной зоной для модели.
Статья
🟣OpenLLaMA — открытая альтерная альтенратива модели LLaMa. Обучена на корпусе RedPajama, бОльшая часть которого — нефильтрованный корпус интернета CommonCrawl. У модели проведена первичная оценка на стандартных датасетах, из alignment есть только оценка фактологичности, на ней метрики достаточно низкие (в районе 20%).
Статьи нет.
🟣CerebrasGPT, Pythia, StableLM, GPT-J — все обучались на готовом корпусе the Pile. В корпусе есть достаточно сильные смещения и оскорбительный контент.
Carabras-GPT сравнивается подробно с другими моделями на датасете CrowS-Pairs (гендер, религия, национальность и другие стереотипы) Cerebras-GPT 13B показывает неплохую степень стереотипности в среднем по всем категориям, и даже ниже, чем другие модели, на категориях расы ии возраста, однако отрабатывает хуже, чем GPT-3, OPT или LLaMa, на 6 категориях их 9.
Pythia измерена авторами на датасетах WinoBias (гендерные стереотипы) и CrowS-Pairs. Авторы отмечают, что оба датасета не подходят под измерение генеративных LLM (спорно!), поэтому и метрики не очень. Метрики и правда так себе.
У StableLM и GPT-J нет даже статьи.
Статья CerebrasGPT Pythia
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/rybolos_channel/669
Create:
Last Update:

#nlp #про_nlp #ai_alignment #длиннопост

🌸Какие ценности у языковых моделей?🌸

Я уже несколько постов посвятила такой рубрике, как AI Alignment (раз, два, три), и сегодня хочу сравнить с вами доступную информацию о датасетах, критериях и reward-моделях у популярных LLM.

Так как инструментов "натаскивания" языковых моделей на человеческие ценности не так уж много, в серии постов будем разбирать, какие способы использовали раpработчики каждой модели.
Основных методов всего 3:
— положить в обучение базовой языковой модели датасет с "хорошими" и "плохими" примерами (либо вообще только с хорошими)
— обучить и добавить в качестве модуля сверху языковой модели специальный класификатор, который будет определять опасное поведение
— обучить ранжирующую или reward-модель, которая будет оценивать ответы языковой модели в процессе генерации и определять результат вывода

+ всегда сверху делается оценка полученного результата по разным критериям: токсичность, фактологичность, смещения, воспроизведение стереотипов и тд.
У всех моделей критерии оценки разные, на разных тестах, датасетах, что делает их справедливое сравнение сложным.

Часть 1. Базовые модели, SFT

🟣OpenAssistant — коллаборативный проект, supervised Fine-tune открытой языковой модели. В обучении — автоматическая чистка данных от спама, токсичности. Из токсичности отдельно выделили собственно "токсичность" (да, сепульки), непристойные сообщения, угрожающие, оскорбительные, нападающие на определенную личность или откровенно сексуального характера. Также из обучения были исключены персональные данные.
Минус: нет оценки на бенчмарках, популярных тестах, чтобы замерить количественно результаты модели. Зато проведена оценка на политический спектр: оказалось, что OpenAssistant — "proud conservative" 🙈
Статья
🟣Claude (Anthropic) — основной конкурент chatGPT на рынке платных LLM-as-a-service. Для обучения SFT отдельно собирались данные с разметкой полезности (helpfulness) и безобидности (harmlessness) ответов модели. При этом разметчиков отдельно просили придумать такие затравки, чтобы наиболее полезный совет был бы наиболее вредоносным, и так далее, и затем просили других участников разметки переделать ответы, чтобы сделать их лучше.
Отдельно проведены подробные тесты 1) HHH Alignment (Helpful, Honest, & Harmless) из бенчмарка BIG-Bench, 2) Bot Adversarial Dialogues, 3) плюс проверка на правдивое воспроизведение фактов, смещения и стереотипы (гендерные и не только). Факты остаются проблемной зоной для модели.
Статья
🟣OpenLLaMA — открытая альтерная альтенратива модели LLaMa. Обучена на корпусе RedPajama, бОльшая часть которого — нефильтрованный корпус интернета CommonCrawl. У модели проведена первичная оценка на стандартных датасетах, из alignment есть только оценка фактологичности, на ней метрики достаточно низкие (в районе 20%).
Статьи нет.
🟣CerebrasGPT, Pythia, StableLM, GPT-J — все обучались на готовом корпусе the Pile. В корпусе есть достаточно сильные смещения и оскорбительный контент.
Carabras-GPT сравнивается подробно с другими моделями на датасете CrowS-Pairs (гендер, религия, национальность и другие стереотипы) Cerebras-GPT 13B показывает неплохую степень стереотипности в среднем по всем категориям, и даже ниже, чем другие модели, на категориях расы ии возраста, однако отрабатывает хуже, чем GPT-3, OPT или LLaMa, на 6 категориях их 9.
Pythia измерена авторами на датасетах WinoBias (гендерные стереотипы) и CrowS-Pairs. Авторы отмечают, что оба датасета не подходят под измерение генеративных LLM (спорно!), поэтому и метрики не очень. Метрики и правда так себе.
У StableLM и GPT-J нет даже статьи.
Статья CerebrasGPT Pythia

BY Kali Novskaya


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/rybolos_channel/669

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Pavel Durov, Telegram's CEO, is known as "the Russian Mark Zuckerberg," for co-founding VKontakte, which is Russian for "in touch," a Facebook imitator that became the country's most popular social networking site. Although some channels have been removed, the curation process is considered opaque and insufficient by analysts. But because group chats and the channel features are not end-to-end encrypted, Galperin said user privacy is potentially under threat. At the start of 2018, the company attempted to launch an Initial Coin Offering (ICO) which would enable it to enable payments (and earn the cash that comes from doing so). The initial signals were promising, especially given Telegram’s user base is already fairly crypto-savvy. It raised an initial tranche of cash – worth more than a billion dollars – to help develop the coin before opening sales to the public. Unfortunately, third-party sales of coins bought in those initial fundraising rounds raised the ire of the SEC, which brought the hammer down on the whole operation. In 2020, officials ordered Telegram to pay a fine of $18.5 million and hand back much of the cash that it had raised. Such instructions could actually endanger people — citizens receive air strike warnings via smartphone alerts.
from sg


Telegram Kali Novskaya
FROM American