Telegram Group & Telegram Channel
#nlp #про_nlp #ai_alignment #длиннопост

🌸Какие ценности у языковых моделей?🌸

Я уже несколько постов посвятила такой рубрике, как AI Alignment (раз, два, три), и сегодня хочу сравнить с вами доступную информацию о датасетах, критериях и reward-моделях у популярных LLM.

Так как инструментов "натаскивания" языковых моделей на человеческие ценности не так уж много, в серии постов будем разбирать, какие способы использовали раpработчики каждой модели.
Основных методов всего 3:
— положить в обучение базовой языковой модели датасет с "хорошими" и "плохими" примерами (либо вообще только с хорошими)
— обучить и добавить в качестве модуля сверху языковой модели специальный класификатор, который будет определять опасное поведение
— обучить ранжирующую или reward-модель, которая будет оценивать ответы языковой модели в процессе генерации и определять результат вывода

+ всегда сверху делается оценка полученного результата по разным критериям: токсичность, фактологичность, смещения, воспроизведение стереотипов и тд.
У всех моделей критерии оценки разные, на разных тестах, датасетах, что делает их справедливое сравнение сложным.

Часть 1. Базовые модели, SFT

🟣OpenAssistant — коллаборативный проект, supervised Fine-tune открытой языковой модели. В обучении — автоматическая чистка данных от спама, токсичности. Из токсичности отдельно выделили собственно "токсичность" (да, сепульки), непристойные сообщения, угрожающие, оскорбительные, нападающие на определенную личность или откровенно сексуального характера. Также из обучения были исключены персональные данные.
Минус: нет оценки на бенчмарках, популярных тестах, чтобы замерить количественно результаты модели. Зато проведена оценка на политический спектр: оказалось, что OpenAssistant — "proud conservative" 🙈
Статья
🟣Claude (Anthropic) — основной конкурент chatGPT на рынке платных LLM-as-a-service. Для обучения SFT отдельно собирались данные с разметкой полезности (helpfulness) и безобидности (harmlessness) ответов модели. При этом разметчиков отдельно просили придумать такие затравки, чтобы наиболее полезный совет был бы наиболее вредоносным, и так далее, и затем просили других участников разметки переделать ответы, чтобы сделать их лучше.
Отдельно проведены подробные тесты 1) HHH Alignment (Helpful, Honest, & Harmless) из бенчмарка BIG-Bench, 2) Bot Adversarial Dialogues, 3) плюс проверка на правдивое воспроизведение фактов, смещения и стереотипы (гендерные и не только). Факты остаются проблемной зоной для модели.
Статья
🟣OpenLLaMA — открытая альтерная альтенратива модели LLaMa. Обучена на корпусе RedPajama, бОльшая часть которого — нефильтрованный корпус интернета CommonCrawl. У модели проведена первичная оценка на стандартных датасетах, из alignment есть только оценка фактологичности, на ней метрики достаточно низкие (в районе 20%).
Статьи нет.
🟣CerebrasGPT, Pythia, StableLM, GPT-J — все обучались на готовом корпусе the Pile. В корпусе есть достаточно сильные смещения и оскорбительный контент.
Carabras-GPT сравнивается подробно с другими моделями на датасете CrowS-Pairs (гендер, религия, национальность и другие стереотипы) Cerebras-GPT 13B показывает неплохую степень стереотипности в среднем по всем категориям, и даже ниже, чем другие модели, на категориях расы ии возраста, однако отрабатывает хуже, чем GPT-3, OPT или LLaMa, на 6 категориях их 9.
Pythia измерена авторами на датасетах WinoBias (гендерные стереотипы) и CrowS-Pairs. Авторы отмечают, что оба датасета не подходят под измерение генеративных LLM (спорно!), поэтому и метрики не очень. Метрики и правда так себе.
У StableLM и GPT-J нет даже статьи.
Статья CerebrasGPT Pythia
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/rybolos_channel/669
Create:
Last Update:

#nlp #про_nlp #ai_alignment #длиннопост

🌸Какие ценности у языковых моделей?🌸

Я уже несколько постов посвятила такой рубрике, как AI Alignment (раз, два, три), и сегодня хочу сравнить с вами доступную информацию о датасетах, критериях и reward-моделях у популярных LLM.

Так как инструментов "натаскивания" языковых моделей на человеческие ценности не так уж много, в серии постов будем разбирать, какие способы использовали раpработчики каждой модели.
Основных методов всего 3:
— положить в обучение базовой языковой модели датасет с "хорошими" и "плохими" примерами (либо вообще только с хорошими)
— обучить и добавить в качестве модуля сверху языковой модели специальный класификатор, который будет определять опасное поведение
— обучить ранжирующую или reward-модель, которая будет оценивать ответы языковой модели в процессе генерации и определять результат вывода

+ всегда сверху делается оценка полученного результата по разным критериям: токсичность, фактологичность, смещения, воспроизведение стереотипов и тд.
У всех моделей критерии оценки разные, на разных тестах, датасетах, что делает их справедливое сравнение сложным.

Часть 1. Базовые модели, SFT

🟣OpenAssistant — коллаборативный проект, supervised Fine-tune открытой языковой модели. В обучении — автоматическая чистка данных от спама, токсичности. Из токсичности отдельно выделили собственно "токсичность" (да, сепульки), непристойные сообщения, угрожающие, оскорбительные, нападающие на определенную личность или откровенно сексуального характера. Также из обучения были исключены персональные данные.
Минус: нет оценки на бенчмарках, популярных тестах, чтобы замерить количественно результаты модели. Зато проведена оценка на политический спектр: оказалось, что OpenAssistant — "proud conservative" 🙈
Статья
🟣Claude (Anthropic) — основной конкурент chatGPT на рынке платных LLM-as-a-service. Для обучения SFT отдельно собирались данные с разметкой полезности (helpfulness) и безобидности (harmlessness) ответов модели. При этом разметчиков отдельно просили придумать такие затравки, чтобы наиболее полезный совет был бы наиболее вредоносным, и так далее, и затем просили других участников разметки переделать ответы, чтобы сделать их лучше.
Отдельно проведены подробные тесты 1) HHH Alignment (Helpful, Honest, & Harmless) из бенчмарка BIG-Bench, 2) Bot Adversarial Dialogues, 3) плюс проверка на правдивое воспроизведение фактов, смещения и стереотипы (гендерные и не только). Факты остаются проблемной зоной для модели.
Статья
🟣OpenLLaMA — открытая альтерная альтенратива модели LLaMa. Обучена на корпусе RedPajama, бОльшая часть которого — нефильтрованный корпус интернета CommonCrawl. У модели проведена первичная оценка на стандартных датасетах, из alignment есть только оценка фактологичности, на ней метрики достаточно низкие (в районе 20%).
Статьи нет.
🟣CerebrasGPT, Pythia, StableLM, GPT-J — все обучались на готовом корпусе the Pile. В корпусе есть достаточно сильные смещения и оскорбительный контент.
Carabras-GPT сравнивается подробно с другими моделями на датасете CrowS-Pairs (гендер, религия, национальность и другие стереотипы) Cerebras-GPT 13B показывает неплохую степень стереотипности в среднем по всем категориям, и даже ниже, чем другие модели, на категориях расы ии возраста, однако отрабатывает хуже, чем GPT-3, OPT или LLaMa, на 6 категориях их 9.
Pythia измерена авторами на датасетах WinoBias (гендерные стереотипы) и CrowS-Pairs. Авторы отмечают, что оба датасета не подходят под измерение генеративных LLM (спорно!), поэтому и метрики не очень. Метрики и правда так себе.
У StableLM и GPT-J нет даже статьи.
Статья CerebrasGPT Pythia

BY Kali Novskaya


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/rybolos_channel/669

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Markets continued to grapple with the economic and corporate earnings implications relating to the Russia-Ukraine conflict. “We have a ton of uncertainty right now,” said Stephanie Link, chief investment strategist and portfolio manager at Hightower Advisors. “We’re dealing with a war, we’re dealing with inflation. We don’t know what it means to earnings.” In 2018, Russia banned Telegram although it reversed the prohibition two years later. "The argument from Telegram is, 'You should trust us because we tell you that we're trustworthy,'" Maréchal said. "It's really in the eye of the beholder whether that's something you want to buy into." Asked about its stance on disinformation, Telegram spokesperson Remi Vaughn told AFP: "As noted by our CEO, the sheer volume of information being shared on channels makes it extremely difficult to verify, so it's important that users double-check what they read." Since January 2022, the SC has received a total of 47 complaints and enquiries on illegal investment schemes promoted through Telegram. These fraudulent schemes offer non-existent investment opportunities, promising very attractive and risk-free returns within a short span of time. They commonly offer unrealistic returns of as high as 1,000% within 24 hours or even within a few hours.
from ua


Telegram Kali Novskaya
FROM American