Telegram Group & Telegram Channel
#nlp #про_nlp #ai_alignment #длиннопост

🌸Какие ценности у языковых моделей?🌸

Я уже несколько постов посвятила такой рубрике, как AI Alignment (раз, два, три), и сегодня хочу сравнить с вами доступную информацию о датасетах, критериях и reward-моделях у популярных LLM.

Так как инструментов "натаскивания" языковых моделей на человеческие ценности не так уж много, в серии постов будем разбирать, какие способы использовали раpработчики каждой модели.
Основных методов всего 3:
— положить в обучение базовой языковой модели датасет с "хорошими" и "плохими" примерами (либо вообще только с хорошими)
— обучить и добавить в качестве модуля сверху языковой модели специальный класификатор, который будет определять опасное поведение
— обучить ранжирующую или reward-модель, которая будет оценивать ответы языковой модели в процессе генерации и определять результат вывода

+ всегда сверху делается оценка полученного результата по разным критериям: токсичность, фактологичность, смещения, воспроизведение стереотипов и тд.
У всех моделей критерии оценки разные, на разных тестах, датасетах, что делает их справедливое сравнение сложным.

Часть 1. Базовые модели, SFT

🟣OpenAssistant — коллаборативный проект, supervised Fine-tune открытой языковой модели. В обучении — автоматическая чистка данных от спама, токсичности. Из токсичности отдельно выделили собственно "токсичность" (да, сепульки), непристойные сообщения, угрожающие, оскорбительные, нападающие на определенную личность или откровенно сексуального характера. Также из обучения были исключены персональные данные.
Минус: нет оценки на бенчмарках, популярных тестах, чтобы замерить количественно результаты модели. Зато проведена оценка на политический спектр: оказалось, что OpenAssistant — "proud conservative" 🙈
Статья
🟣Claude (Anthropic) — основной конкурент chatGPT на рынке платных LLM-as-a-service. Для обучения SFT отдельно собирались данные с разметкой полезности (helpfulness) и безобидности (harmlessness) ответов модели. При этом разметчиков отдельно просили придумать такие затравки, чтобы наиболее полезный совет был бы наиболее вредоносным, и так далее, и затем просили других участников разметки переделать ответы, чтобы сделать их лучше.
Отдельно проведены подробные тесты 1) HHH Alignment (Helpful, Honest, & Harmless) из бенчмарка BIG-Bench, 2) Bot Adversarial Dialogues, 3) плюс проверка на правдивое воспроизведение фактов, смещения и стереотипы (гендерные и не только). Факты остаются проблемной зоной для модели.
Статья
🟣OpenLLaMA — открытая альтерная альтенратива модели LLaMa. Обучена на корпусе RedPajama, бОльшая часть которого — нефильтрованный корпус интернета CommonCrawl. У модели проведена первичная оценка на стандартных датасетах, из alignment есть только оценка фактологичности, на ней метрики достаточно низкие (в районе 20%).
Статьи нет.
🟣CerebrasGPT, Pythia, StableLM, GPT-J — все обучались на готовом корпусе the Pile. В корпусе есть достаточно сильные смещения и оскорбительный контент.
Carabras-GPT сравнивается подробно с другими моделями на датасете CrowS-Pairs (гендер, религия, национальность и другие стереотипы) Cerebras-GPT 13B показывает неплохую степень стереотипности в среднем по всем категориям, и даже ниже, чем другие модели, на категориях расы ии возраста, однако отрабатывает хуже, чем GPT-3, OPT или LLaMa, на 6 категориях их 9.
Pythia измерена авторами на датасетах WinoBias (гендерные стереотипы) и CrowS-Pairs. Авторы отмечают, что оба датасета не подходят под измерение генеративных LLM (спорно!), поэтому и метрики не очень. Метрики и правда так себе.
У StableLM и GPT-J нет даже статьи.
Статья CerebrasGPT Pythia
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/rybolos_channel/669
Create:
Last Update:

#nlp #про_nlp #ai_alignment #длиннопост

🌸Какие ценности у языковых моделей?🌸

Я уже несколько постов посвятила такой рубрике, как AI Alignment (раз, два, три), и сегодня хочу сравнить с вами доступную информацию о датасетах, критериях и reward-моделях у популярных LLM.

Так как инструментов "натаскивания" языковых моделей на человеческие ценности не так уж много, в серии постов будем разбирать, какие способы использовали раpработчики каждой модели.
Основных методов всего 3:
— положить в обучение базовой языковой модели датасет с "хорошими" и "плохими" примерами (либо вообще только с хорошими)
— обучить и добавить в качестве модуля сверху языковой модели специальный класификатор, который будет определять опасное поведение
— обучить ранжирующую или reward-модель, которая будет оценивать ответы языковой модели в процессе генерации и определять результат вывода

+ всегда сверху делается оценка полученного результата по разным критериям: токсичность, фактологичность, смещения, воспроизведение стереотипов и тд.
У всех моделей критерии оценки разные, на разных тестах, датасетах, что делает их справедливое сравнение сложным.

Часть 1. Базовые модели, SFT

🟣OpenAssistant — коллаборативный проект, supervised Fine-tune открытой языковой модели. В обучении — автоматическая чистка данных от спама, токсичности. Из токсичности отдельно выделили собственно "токсичность" (да, сепульки), непристойные сообщения, угрожающие, оскорбительные, нападающие на определенную личность или откровенно сексуального характера. Также из обучения были исключены персональные данные.
Минус: нет оценки на бенчмарках, популярных тестах, чтобы замерить количественно результаты модели. Зато проведена оценка на политический спектр: оказалось, что OpenAssistant — "proud conservative" 🙈
Статья
🟣Claude (Anthropic) — основной конкурент chatGPT на рынке платных LLM-as-a-service. Для обучения SFT отдельно собирались данные с разметкой полезности (helpfulness) и безобидности (harmlessness) ответов модели. При этом разметчиков отдельно просили придумать такие затравки, чтобы наиболее полезный совет был бы наиболее вредоносным, и так далее, и затем просили других участников разметки переделать ответы, чтобы сделать их лучше.
Отдельно проведены подробные тесты 1) HHH Alignment (Helpful, Honest, & Harmless) из бенчмарка BIG-Bench, 2) Bot Adversarial Dialogues, 3) плюс проверка на правдивое воспроизведение фактов, смещения и стереотипы (гендерные и не только). Факты остаются проблемной зоной для модели.
Статья
🟣OpenLLaMA — открытая альтерная альтенратива модели LLaMa. Обучена на корпусе RedPajama, бОльшая часть которого — нефильтрованный корпус интернета CommonCrawl. У модели проведена первичная оценка на стандартных датасетах, из alignment есть только оценка фактологичности, на ней метрики достаточно низкие (в районе 20%).
Статьи нет.
🟣CerebrasGPT, Pythia, StableLM, GPT-J — все обучались на готовом корпусе the Pile. В корпусе есть достаточно сильные смещения и оскорбительный контент.
Carabras-GPT сравнивается подробно с другими моделями на датасете CrowS-Pairs (гендер, религия, национальность и другие стереотипы) Cerebras-GPT 13B показывает неплохую степень стереотипности в среднем по всем категориям, и даже ниже, чем другие модели, на категориях расы ии возраста, однако отрабатывает хуже, чем GPT-3, OPT или LLaMa, на 6 категориях их 9.
Pythia измерена авторами на датасетах WinoBias (гендерные стереотипы) и CrowS-Pairs. Авторы отмечают, что оба датасета не подходят под измерение генеративных LLM (спорно!), поэтому и метрики не очень. Метрики и правда так себе.
У StableLM и GPT-J нет даже статьи.
Статья CerebrasGPT Pythia

BY Kali Novskaya


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/rybolos_channel/669

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In addition, Telegram now supports the use of third-party streaming tools like OBS Studio and XSplit to broadcast live video, allowing users to add overlays and multi-screen layouts for a more professional look. Markets continued to grapple with the economic and corporate earnings implications relating to the Russia-Ukraine conflict. “We have a ton of uncertainty right now,” said Stephanie Link, chief investment strategist and portfolio manager at Hightower Advisors. “We’re dealing with a war, we’re dealing with inflation. We don’t know what it means to earnings.” READ MORE It is unclear who runs the account, although Russia's official Ministry of Foreign Affairs Twitter account promoted the Telegram channel on Saturday and claimed it was operated by "a group of experts & journalists." If you initiate a Secret Chat, however, then these communications are end-to-end encrypted and are tied to the device you are using. That means it’s less convenient to access them across multiple platforms, but you are at far less risk of snooping. Back in the day, Secret Chats received some praise from the EFF, but the fact that its standard system isn’t as secure earned it some criticism. If you’re looking for something that is considered more reliable by privacy advocates, then Signal is the EFF’s preferred platform, although that too is not without some caveats.
from pl


Telegram Kali Novskaya
FROM American