Уже несколько раз писал про
LMSYS Arena (из неё кстати убрали gpt2-chatbot
🥲) — место, где вы вслепую сравниваете два ответа LLM на ВАШ запрос, и по тысячам таких сравнений строится оценка, какая модель лучше. Если живые люди стабильно предпочитают одну модель над другой на широком наборе запросов — можно говорить, что она лучше (по крайней мере в этом контексте).
Способ оценки неплохой, но очень накладной: нужно с одной стороны оплачивать API моделей/выпрашивать кредиты, а с другой нагонять трафик, а затем ждать, пока наберётся статистика. Если моделей всего 10-20, то проблем нет, но сейчас буквально каждый день появляется с десяток! Хочется как-то отфильтровать уж совсем мусор, и достойных кандидатов выпускать на Арену.
Делать это можно прогоном моделей по каким-то предварительным данным с последующей автоматической оценкой. Требований к датасету несколько:
1️⃣ возможность надежного разделения моделей разного уровня навыков
2️⃣ отражение человеческих предпочтений в реальных сценариях использования
3️⃣ должен обновляться со временем, чтобы свежие модели не могли переобучиться и показать результаты выше объективных
(в идеале ещё быстро & дешево, но тут как в анекдоте, выберите 2 из 3)
Вот именно с последним зачастую возникают проблемы, хоть и второй
2️⃣пункт тоже с полпинка не заведётся. Так, авторы Арены ещё год назад придумали
MTBench: у них на руках были запросы пользователей, они посмотрели на частотность, и придумали 80 вопросов, по 10 в 8 категориях, которые якобы отражают распределение сообщений от людей. В качестве оценщика выступала GPT-4, исследователи проверили, насколько хорошо модель справляется с угадыванием мнений людей, насколько откалибровано её мнение и какие биасы заложены. Например, модель всегда поощряет более длинные ответы, а также безумно рада «своим» генерациям (то есть от GPT-4).
В итоге, MTBench какое-то время был хоть немного, но актуальным бенчмарком. Но сейчас, к сожалению, его оценка перестала удовлетворять как минимум первому
1️⃣ требованию из списка — разделимость моделей. Вот GPT-4 имеет оценку 8.6 (из 10), Claude 3 Opus 8.6, другие модели около 8.1-8.2 болтаются — но ведь вопросов всего 80! И потому доверительные интервалы очень широкие, и нельзя надёжно сказать, что вот одно лучше другого. И никаих обновлений по
3️⃣не было. Как быть, кто виноват и что делать?