Telegram Group & Telegram Channel
#nlp #про_nlp #ai_alignment #длиннопост

🌸Какие ценности у языковых моделей?🌸

Я уже несколько постов посвятила такой рубрике, как AI Alignment (раз, два, три), и сегодня хочу сравнить с вами доступную информацию о датасетах, критериях и reward-моделях у популярных LLM.

Так как инструментов "натаскивания" языковых моделей на человеческие ценности не так уж много, в серии постов будем разбирать, какие способы использовали раpработчики каждой модели.
Основных методов всего 3:
— положить в обучение базовой языковой модели датасет с "хорошими" и "плохими" примерами (либо вообще только с хорошими)
— обучить и добавить в качестве модуля сверху языковой модели специальный класификатор, который будет определять опасное поведение
— обучить ранжирующую или reward-модель, которая будет оценивать ответы языковой модели в процессе генерации и определять результат вывода

+ всегда сверху делается оценка полученного результата по разным критериям: токсичность, фактологичность, смещения, воспроизведение стереотипов и тд.
У всех моделей критерии оценки разные, на разных тестах, датасетах, что делает их справедливое сравнение сложным.

Часть 1. Базовые модели, SFT

🟣OpenAssistant — коллаборативный проект, supervised Fine-tune открытой языковой модели. В обучении — автоматическая чистка данных от спама, токсичности. Из токсичности отдельно выделили собственно "токсичность" (да, сепульки), непристойные сообщения, угрожающие, оскорбительные, нападающие на определенную личность или откровенно сексуального характера. Также из обучения были исключены персональные данные.
Минус: нет оценки на бенчмарках, популярных тестах, чтобы замерить количественно результаты модели. Зато проведена оценка на политический спектр: оказалось, что OpenAssistant — "proud conservative" 🙈
Статья
🟣Claude (Anthropic) — основной конкурент chatGPT на рынке платных LLM-as-a-service. Для обучения SFT отдельно собирались данные с разметкой полезности (helpfulness) и безобидности (harmlessness) ответов модели. При этом разметчиков отдельно просили придумать такие затравки, чтобы наиболее полезный совет был бы наиболее вредоносным, и так далее, и затем просили других участников разметки переделать ответы, чтобы сделать их лучше.
Отдельно проведены подробные тесты 1) HHH Alignment (Helpful, Honest, & Harmless) из бенчмарка BIG-Bench, 2) Bot Adversarial Dialogues, 3) плюс проверка на правдивое воспроизведение фактов, смещения и стереотипы (гендерные и не только). Факты остаются проблемной зоной для модели.
Статья
🟣OpenLLaMA — открытая альтерная альтенратива модели LLaMa. Обучена на корпусе RedPajama, бОльшая часть которого — нефильтрованный корпус интернета CommonCrawl. У модели проведена первичная оценка на стандартных датасетах, из alignment есть только оценка фактологичности, на ней метрики достаточно низкие (в районе 20%).
Статьи нет.
🟣CerebrasGPT, Pythia, StableLM, GPT-J — все обучались на готовом корпусе the Pile. В корпусе есть достаточно сильные смещения и оскорбительный контент.
Carabras-GPT сравнивается подробно с другими моделями на датасете CrowS-Pairs (гендер, религия, национальность и другие стереотипы) Cerebras-GPT 13B показывает неплохую степень стереотипности в среднем по всем категориям, и даже ниже, чем другие модели, на категориях расы ии возраста, однако отрабатывает хуже, чем GPT-3, OPT или LLaMa, на 6 категориях их 9.
Pythia измерена авторами на датасетах WinoBias (гендерные стереотипы) и CrowS-Pairs. Авторы отмечают, что оба датасета не подходят под измерение генеративных LLM (спорно!), поэтому и метрики не очень. Метрики и правда так себе.
У StableLM и GPT-J нет даже статьи.
Статья CerebrasGPT Pythia
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/rybolos_channel/669
Create:
Last Update:

#nlp #про_nlp #ai_alignment #длиннопост

🌸Какие ценности у языковых моделей?🌸

Я уже несколько постов посвятила такой рубрике, как AI Alignment (раз, два, три), и сегодня хочу сравнить с вами доступную информацию о датасетах, критериях и reward-моделях у популярных LLM.

Так как инструментов "натаскивания" языковых моделей на человеческие ценности не так уж много, в серии постов будем разбирать, какие способы использовали раpработчики каждой модели.
Основных методов всего 3:
— положить в обучение базовой языковой модели датасет с "хорошими" и "плохими" примерами (либо вообще только с хорошими)
— обучить и добавить в качестве модуля сверху языковой модели специальный класификатор, который будет определять опасное поведение
— обучить ранжирующую или reward-модель, которая будет оценивать ответы языковой модели в процессе генерации и определять результат вывода

+ всегда сверху делается оценка полученного результата по разным критериям: токсичность, фактологичность, смещения, воспроизведение стереотипов и тд.
У всех моделей критерии оценки разные, на разных тестах, датасетах, что делает их справедливое сравнение сложным.

Часть 1. Базовые модели, SFT

🟣OpenAssistant — коллаборативный проект, supervised Fine-tune открытой языковой модели. В обучении — автоматическая чистка данных от спама, токсичности. Из токсичности отдельно выделили собственно "токсичность" (да, сепульки), непристойные сообщения, угрожающие, оскорбительные, нападающие на определенную личность или откровенно сексуального характера. Также из обучения были исключены персональные данные.
Минус: нет оценки на бенчмарках, популярных тестах, чтобы замерить количественно результаты модели. Зато проведена оценка на политический спектр: оказалось, что OpenAssistant — "proud conservative" 🙈
Статья
🟣Claude (Anthropic) — основной конкурент chatGPT на рынке платных LLM-as-a-service. Для обучения SFT отдельно собирались данные с разметкой полезности (helpfulness) и безобидности (harmlessness) ответов модели. При этом разметчиков отдельно просили придумать такие затравки, чтобы наиболее полезный совет был бы наиболее вредоносным, и так далее, и затем просили других участников разметки переделать ответы, чтобы сделать их лучше.
Отдельно проведены подробные тесты 1) HHH Alignment (Helpful, Honest, & Harmless) из бенчмарка BIG-Bench, 2) Bot Adversarial Dialogues, 3) плюс проверка на правдивое воспроизведение фактов, смещения и стереотипы (гендерные и не только). Факты остаются проблемной зоной для модели.
Статья
🟣OpenLLaMA — открытая альтерная альтенратива модели LLaMa. Обучена на корпусе RedPajama, бОльшая часть которого — нефильтрованный корпус интернета CommonCrawl. У модели проведена первичная оценка на стандартных датасетах, из alignment есть только оценка фактологичности, на ней метрики достаточно низкие (в районе 20%).
Статьи нет.
🟣CerebrasGPT, Pythia, StableLM, GPT-J — все обучались на готовом корпусе the Pile. В корпусе есть достаточно сильные смещения и оскорбительный контент.
Carabras-GPT сравнивается подробно с другими моделями на датасете CrowS-Pairs (гендер, религия, национальность и другие стереотипы) Cerebras-GPT 13B показывает неплохую степень стереотипности в среднем по всем категориям, и даже ниже, чем другие модели, на категориях расы ии возраста, однако отрабатывает хуже, чем GPT-3, OPT или LLaMa, на 6 категориях их 9.
Pythia измерена авторами на датасетах WinoBias (гендерные стереотипы) и CrowS-Pairs. Авторы отмечают, что оба датасета не подходят под измерение генеративных LLM (спорно!), поэтому и метрики не очень. Метрики и правда так себе.
У StableLM и GPT-J нет даже статьи.
Статья CerebrasGPT Pythia

BY Kali Novskaya


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/rybolos_channel/669

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The Dow Jones Industrial Average fell 230 points, or 0.7%. Meanwhile, the S&P 500 and the Nasdaq Composite dropped 1.3% and 2.2%, respectively. All three indexes began the day with gains before selling off. Since January 2022, the SC has received a total of 47 complaints and enquiries on illegal investment schemes promoted through Telegram. These fraudulent schemes offer non-existent investment opportunities, promising very attractive and risk-free returns within a short span of time. They commonly offer unrealistic returns of as high as 1,000% within 24 hours or even within a few hours. Groups are also not fully encrypted, end-to-end. This includes private groups. Private groups cannot be seen by other Telegram users, but Telegram itself can see the groups and all of the communications that you have in them. All of the same risks and warnings about channels can be applied to groups. Official government accounts have also spread fake fact checks. An official Twitter account for the Russia diplomatic mission in Geneva shared a fake debunking video claiming without evidence that "Western and Ukrainian media are creating thousands of fake news on Russia every day." The video, which has amassed almost 30,000 views, offered a "how-to" spot misinformation. "He has to start being more proactive and to find a real solution to this situation, not stay in standby without interfering. It's a very irresponsible position from the owner of Telegram," she said.
from ca


Telegram Kali Novskaya
FROM American