group-telegram.com/rybolos_channel/1075
Last Update:
🌸Индустриальная оценка LLM в 2024🌸
#nlp #про_nlp #ai_alignment
Бенчмарки, как и версии моделей, постоянно меняются. Какие гарантии, что лучшая LLM на лидерборле действительно окажется лучшей в конкретном индустриальном применении? Никакие
Давно хотела написать этот пост и собрать здесь чек-лист со ссылками на реальные методы оценки, объединяющие полную процедуру LLM evaluation — для индустриальных применений и для рисерча.
Для минимального пайплайна будет достаточно 3 связанных составляющих: релевантные бенчмарки → side by side/preferences metrics → результаты AB — и блокирующих критериев качества вроде safety.
В такой постановке оценки вы сможете опираться на результаты AB (от пользователей) и human preferences (от разметчиков) как на некоторую истину, а с помощью оценки на бенчмарках уменьшите число потенциальных кандидатов, идущих в оценку людьми (оценивать людьми дорого).
На каждом из 3 этапов вы уменьшаете количество экспериментов, которые потенциально дойдут до прода: по бенчмаркам safety отвалятся половина чекпоинтов, потом еще часть после side by side разметчиков, и еще меньше — покажет статзначимый результат на AB. При этом, что важно, корреляции между результатами на 3 этапах может не быть: академические бенчмарки не согласуются с оценкой разметчиков (измеряем разное), а разметчики выдают смещенный результат относительно реальных пользователей (другая демография).
1️⃣ Шаг 1. Бенчмарки и оффлайн метрики.
Сюда отнесем любые оценки на бенчмарках и отслеживание различных аспектов качества.
— Если вы работаете с конкретным применением — выбирайте наиболее релевантные задачи.
— Если вы разрабатываете новую LLM — незазорно взять все.
Их слишком много даже для этого поста, поэтому стоит поискать под свою задачу отдельно. Тем не менее, для общего случая:
— Надежные бенчмарки для сравнения на большом числе задач
MMLU (разные предметные знания), HELM (разные типы задач), BigBench (400+ датасетов на разных языках)
— Новые бенчмарки небольшого объема, но со сложными задачами
GAIA, ARC, WildBench
— RAG-бенчмарки и эффективность длинного контекста
Babilong, в остальном не очень стандартизовано (см у Ильи Гусева)
— Галлюцинации, фактологичность — для оценки фактологии можно взять мультиязычный фактологический датасет mLAMA (см как мы делали в статье mGPT). Для оценки % галлюцинаций в генерации подойдет любой QA-бенчмарк типа SQuaD и метрика на основе GPT-4.
Отдельные параметры модели, которые мы хотим отследить с помощью обучаемых метрик, классификаторов, reward-моделей на любых данных.
— Токсичность (toxicity) — смотрим автоматически, можно ли выдать ответ пользователю, содержит ли он угрозы, сексуальный контент, оскорбления и ненависть. Популярная открытая модель — DistilBert с Kaggle-соревнования.
— Вредность/опасность генерации (harmfulness) — можно взять бесплатный Moderation API OpenAI. Категории достаточно стандартные — селф-харм, насилие и т.д.
— Полезность (helpfulness) — метрики вроде полезности часто не сочетаются, даже обратно коррелируют с креативностью, позитивным сентиментом и безопасностью ответов, поэтому включать их в оценку нужно обязательно! Можно взять модель на датасете Anthropic HH (helpfulness, harmlessness) как два в одном.
— Креативность, Релевантность и др метрики — см пост отсюда. Если брать произвольные нужные нам метрики, можно написать затравку в условную GPT-4 и гонять оценки по заданным параметрам через нее. В LaMDa, например, автоматически оценивается фактологичность и интересность.
— Обязательно для применений, где возможно получить иск за IP violation (всякий креатив, маркетинг, а также генерация кода)
— Обязательно для code generation! См исследование проблем StarCoder — 8% кода из обучения воспроизводится наизусть, без оригинальной лицензии.
— Если релизите новую модель, обязательно проверить на data leakage те бенчмарки, на которых вы заявляете метрики модели — см PaLM 2 tech report, а также статью
— В HELM есть проверка на генерацию копирайтного материала — датасет