Telegram Group & Telegram Channel
🌸Индустриальная оценка LLM в 2024🌸
#nlp #про_nlp #ai_alignment

Бенчмарки, как и версии моделей, постоянно меняются. Какие гарантии, что лучшая LLM на лидерборле действительно окажется лучшей в конкретном индустриальном применении? Никакие

Давно хотела написать этот пост и собрать здесь чек-лист со ссылками на реальные методы оценки, объединяющие полную процедуру LLM evaluation — для индустриальных применений и для рисерча.

Для минимального пайплайна будет достаточно 3 связанных составляющих: релевантные бенчмарки → side by side/preferences metrics → результаты AB — и блокирующих критериев качества вроде safety.

В такой постановке оценки вы сможете опираться на результаты AB (от пользователей) и human preferences (от разметчиков) как на некоторую истину, а с помощью оценки на бенчмарках уменьшите число потенциальных кандидатов, идущих в оценку людьми (оценивать людьми дорого).

На каждом из 3 этапов вы уменьшаете количество экспериментов, которые потенциально дойдут до прода: по бенчмаркам safety отвалятся половина чекпоинтов, потом еще часть после side by side разметчиков, и еще меньше — покажет статзначимый результат на AB. При этом, что важно, корреляции между результатами на 3 этапах может не быть: академические бенчмарки не согласуются с оценкой разметчиков (измеряем разное), а разметчики выдают смещенный результат относительно реальных пользователей (другая демография).

1️⃣ Шаг 1. Бенчмарки и оффлайн метрики.
Сюда отнесем любые оценки на бенчмарках и отслеживание различных аспектов качества.
— Если вы работаете с конкретным применением — выбирайте наиболее релевантные задачи.
— Если вы разрабатываете новую LLM — незазорно взять все.

🟣Бенчмарки
Их слишком много даже для этого поста, поэтому стоит поискать под свою задачу отдельно. Тем не менее, для общего случая:
— Надежные бенчмарки для сравнения на большом числе задач
MMLU (разные предметные знания), HELM (разные типы задач), BigBench (400+ датасетов на разных языках)
— Новые бенчмарки небольшого объема, но со сложными задачами
GAIA, ARC, WildBench
— RAG-бенчмарки и эффективность длинного контекста
Babilong, в остальном не очень стандартизовано (см у Ильи Гусева)
Галлюцинации, фактологичность — для оценки фактологии можно взять мультиязычный фактологический датасет mLAMA (см как мы делали в статье mGPT). Для оценки % галлюцинаций в генерации подойдет любой QA-бенчмарк типа SQuaD и метрика на основе GPT-4.

🟣Автоматические метрики
Отдельные параметры модели, которые мы хотим отследить с помощью обучаемых метрик, классификаторов, reward-моделей на любых данных.
Токсичность (toxicity) — смотрим автоматически, можно ли выдать ответ пользователю, содержит ли он угрозы, сексуальный контент, оскорбления и ненависть. Популярная открытая модель — DistilBert с Kaggle-соревнования.
Вредность/опасность генерации (harmfulness) — можно взять бесплатный Moderation API OpenAI. Категории достаточно стандартные — селф-харм, насилие и т.д.
Полезность (helpfulness) — метрики вроде полезности часто не сочетаются, даже обратно коррелируют с креативностью, позитивным сентиментом и безопасностью ответов, поэтому включать их в оценку нужно обязательно! Можно взять модель на датасете Anthropic HH (helpfulness, harmlessness) как два в одном.
Креативность, Релевантность и др метрики — см пост отсюда. Если брать произвольные нужные нам метрики, можно написать затравку в условную GPT-4 и гонять оценки по заданным параметрам через нее. В LaMDa, например, автоматически оценивается фактологичность и интересность.

🟣Memorization
— Обязательно для применений, где возможно получить иск за IP violation (всякий креатив, маркетинг, а также генерация кода)
— Обязательно для code generation! См исследование проблем StarCoder — 8% кода из обучения воспроизводится наизусть, без оригинальной лицензии.
— Если релизите новую модель, обязательно проверить на data leakage те бенчмарки, на которых вы заявляете метрики модели — см PaLM 2 tech report, а также статью
— В HELM есть проверка на генерацию копирайтного материала — датасет
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/rybolos_channel/1075
Create:
Last Update:

🌸Индустриальная оценка LLM в 2024🌸
#nlp #про_nlp #ai_alignment

Бенчмарки, как и версии моделей, постоянно меняются. Какие гарантии, что лучшая LLM на лидерборле действительно окажется лучшей в конкретном индустриальном применении? Никакие

Давно хотела написать этот пост и собрать здесь чек-лист со ссылками на реальные методы оценки, объединяющие полную процедуру LLM evaluation — для индустриальных применений и для рисерча.

Для минимального пайплайна будет достаточно 3 связанных составляющих: релевантные бенчмарки → side by side/preferences metrics → результаты AB — и блокирующих критериев качества вроде safety.

В такой постановке оценки вы сможете опираться на результаты AB (от пользователей) и human preferences (от разметчиков) как на некоторую истину, а с помощью оценки на бенчмарках уменьшите число потенциальных кандидатов, идущих в оценку людьми (оценивать людьми дорого).

На каждом из 3 этапов вы уменьшаете количество экспериментов, которые потенциально дойдут до прода: по бенчмаркам safety отвалятся половина чекпоинтов, потом еще часть после side by side разметчиков, и еще меньше — покажет статзначимый результат на AB. При этом, что важно, корреляции между результатами на 3 этапах может не быть: академические бенчмарки не согласуются с оценкой разметчиков (измеряем разное), а разметчики выдают смещенный результат относительно реальных пользователей (другая демография).

1️⃣ Шаг 1. Бенчмарки и оффлайн метрики.
Сюда отнесем любые оценки на бенчмарках и отслеживание различных аспектов качества.
— Если вы работаете с конкретным применением — выбирайте наиболее релевантные задачи.
— Если вы разрабатываете новую LLM — незазорно взять все.

🟣Бенчмарки
Их слишком много даже для этого поста, поэтому стоит поискать под свою задачу отдельно. Тем не менее, для общего случая:
— Надежные бенчмарки для сравнения на большом числе задач
MMLU (разные предметные знания), HELM (разные типы задач), BigBench (400+ датасетов на разных языках)
— Новые бенчмарки небольшого объема, но со сложными задачами
GAIA, ARC, WildBench
— RAG-бенчмарки и эффективность длинного контекста
Babilong, в остальном не очень стандартизовано (см у Ильи Гусева)
Галлюцинации, фактологичность — для оценки фактологии можно взять мультиязычный фактологический датасет mLAMA (см как мы делали в статье mGPT). Для оценки % галлюцинаций в генерации подойдет любой QA-бенчмарк типа SQuaD и метрика на основе GPT-4.

🟣Автоматические метрики
Отдельные параметры модели, которые мы хотим отследить с помощью обучаемых метрик, классификаторов, reward-моделей на любых данных.
Токсичность (toxicity) — смотрим автоматически, можно ли выдать ответ пользователю, содержит ли он угрозы, сексуальный контент, оскорбления и ненависть. Популярная открытая модель — DistilBert с Kaggle-соревнования.
Вредность/опасность генерации (harmfulness) — можно взять бесплатный Moderation API OpenAI. Категории достаточно стандартные — селф-харм, насилие и т.д.
Полезность (helpfulness) — метрики вроде полезности часто не сочетаются, даже обратно коррелируют с креативностью, позитивным сентиментом и безопасностью ответов, поэтому включать их в оценку нужно обязательно! Можно взять модель на датасете Anthropic HH (helpfulness, harmlessness) как два в одном.
Креативность, Релевантность и др метрики — см пост отсюда. Если брать произвольные нужные нам метрики, можно написать затравку в условную GPT-4 и гонять оценки по заданным параметрам через нее. В LaMDa, например, автоматически оценивается фактологичность и интересность.

🟣Memorization
— Обязательно для применений, где возможно получить иск за IP violation (всякий креатив, маркетинг, а также генерация кода)
— Обязательно для code generation! См исследование проблем StarCoder — 8% кода из обучения воспроизводится наизусть, без оригинальной лицензии.
— Если релизите новую модель, обязательно проверить на data leakage те бенчмарки, на которых вы заявляете метрики модели — см PaLM 2 tech report, а также статью
— В HELM есть проверка на генерацию копирайтного материала — датасет

BY Kali Novskaya




Share with your friend now:
group-telegram.com/rybolos_channel/1075

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"The inflation fire was already hot and now with war-driven inflation added to the mix, it will grow even hotter, setting off a scramble by the world’s central banks to pull back their stimulus earlier than expected," Chris Rupkey, chief economist at FWDBONDS, wrote in an email. "A spike in inflation rates has preceded economic recessions historically and this time prices have soared to levels that once again pose a threat to growth." "This time we received the coordinates of enemy vehicles marked 'V' in Kyiv region," it added. "Your messages about the movement of the enemy through the official chatbot … bring new trophies every day," the government agency tweeted. Oh no. There’s a certain degree of myth-making around what exactly went on, so take everything that follows lightly. Telegram was originally launched as a side project by the Durov brothers, with Nikolai handling the coding and Pavel as CEO, while both were at VK. Sebi said data, emails and other documents are being retrieved from the seized devices and detailed investigation is in progress.
from vn


Telegram Kali Novskaya
FROM American