group-telegram.com/seeallochnaya/1346
Last Update:
Собственно, LMSYS почесали репу и придумали новый бенчмарк, Arena Hard v0.1
Ключевых метрики для сравнения с MTBench две:
1. Agreement. Дан запрос и ответы двух LLM. Вот человек выбрал первый или второй как более предпочтительный. В каком проценте случаев автоматическая система оценки будет совпадать с ответом кожаного?
2. Separability. Если мы выберем топ-20 моделей с Arena, то для какой доли пар между всеми моделями их получится разделить с учётом бутстрепа и построения 95%-ого доверительного интервала? (это как раз критерий
Agreement:
— MTBench 26.1%
— Arena-Hard-v0.1 89.1% (!) — это очень много, у людей-оценщиков между собой не всегда так сходятся оценки. Помню в работах OpenAI при создании датасетов для праотца ChatGPT сами исследователи соглашались друг с другом в ~83% случаев. А тут модель угадывает, что ответит человек, почти в 90%.
Separability:
— MTBench 22.6%
— Arena-Hard-v0.1 87.4% — то есть почти все модели можно разделить в том порядке, что есть сейчас. Это тоже высокий показатель, так как в целом не все модели отличаются. Уж между соседними версиями GPT-4-Turbo действительно может не быть огромной разницы, чтобы обнаружить её бенчмарком.
А как, собственно, собирались данные для оценки?
— Взяли 200'000 запросов от людей на Арене
— сделали кластеризацию по топикам, выделив больше 4000 штук
— использовали GPT-4-turbo для объединения в бОльшие группы (aka иерархическая кластериация)
— определили 7 критериев, по которым GPT-4 будет оценивать кластера. Там и сложность, и креативность, и насколько близко к реальным сценариям использования
— произвели оценку, отфильтровали шлак. Кластеры с более высокой оценкой часто соответствуют сложным темам или задачам по меркам LLM, таким как разработка игр или написание мат. доказательств.
— из оставшихся кластеров с оценкой 6-7 (из 7) выбрали 250 штук, из каждого по 2 запроса. Итого 500 промптов
— Модели пишут ответы на запросы. Затем GPT-4 оценивает сначала пару ответов от модели A и B, а затем наоборот — чтобы побороть предвзятость модели, мол, первый ответ чаще бывает лучше. Полный промпт ищите тут.