Telegram Group & Telegram Channel
Собственно, LMSYS почесали репу и придумали новый бенчмарк, Arena Hard v0.1
Ключевых метрики для сравнения с MTBench две:
1. Agreement. Дан запрос и ответы двух LLM. Вот человек выбрал первый или второй как более предпочтительный. В каком проценте случаев автоматическая система оценки будет совпадать с ответом кожаного?
2. Separability. Если мы выберем топ-20 моделей с Arena, то для какой доли пар между всеми моделями их получится разделить с учётом бутстрепа и построения 95%-ого доверительного интервала? (это как раз критерий 1️⃣из поста выше). На пальцах: если у нас 4 модели, то получается 6 пар. Когда мы сравниваем интервалы для этих моделей, то если они не пересекаются, и та модель, что выше в рейтинге по реальным человеческим оценкам, выше и тут — то это +1/6 (~16.6%, потому что 6 пар).

Agreement:
— MTBench 26.1%
— Arena-Hard-v0.1 89.1% (!) — это очень много, у людей-оценщиков между собой не всегда так сходятся оценки. Помню в работах OpenAI при создании датасетов для праотца ChatGPT сами исследователи соглашались друг с другом в ~83% случаев. А тут модель угадывает, что ответит человек, почти в 90%.

Separability:
— MTBench 22.6%
— Arena-Hard-v0.1 87.4% — то есть почти все модели можно разделить в том порядке, что есть сейчас. Это тоже высокий показатель, так как в целом не все модели отличаются. Уж между соседними версиями GPT-4-Turbo действительно может не быть огромной разницы, чтобы обнаружить её бенчмарком.

А как, собственно, собирались данные для оценки?
— Взяли 200'000 запросов от людей на Арене
— сделали кластеризацию по топикам, выделив больше 4000 штук
— использовали GPT-4-turbo для объединения в бОльшие группы (aka иерархическая кластериация)
— определили 7 критериев, по которым GPT-4 будет оценивать кластера. Там и сложность, и креативность, и насколько близко к реальным сценариям использования
— произвели оценку, отфильтровали шлак. Кластеры с более высокой оценкой часто соответствуют сложным темам или задачам по меркам LLM, таким как разработка игр или написание мат. доказательств.
— из оставшихся кластеров с оценкой 6-7 (из 7) выбрали 250 штук, из каждого по 2 запроса. Итого 500 промптов
— Модели пишут ответы на запросы. Затем GPT-4 оценивает сначала пару ответов от модели A и B, а затем наоборот — чтобы побороть предвзятость модели, мол, первый ответ чаще бывает лучше. Полный промпт ищите тут.
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/seeallochnaya/1346
Create:
Last Update:

Собственно, LMSYS почесали репу и придумали новый бенчмарк, Arena Hard v0.1
Ключевых метрики для сравнения с MTBench две:
1. Agreement. Дан запрос и ответы двух LLM. Вот человек выбрал первый или второй как более предпочтительный. В каком проценте случаев автоматическая система оценки будет совпадать с ответом кожаного?
2. Separability. Если мы выберем топ-20 моделей с Arena, то для какой доли пар между всеми моделями их получится разделить с учётом бутстрепа и построения 95%-ого доверительного интервала? (это как раз критерий 1️⃣из поста выше). На пальцах: если у нас 4 модели, то получается 6 пар. Когда мы сравниваем интервалы для этих моделей, то если они не пересекаются, и та модель, что выше в рейтинге по реальным человеческим оценкам, выше и тут — то это +1/6 (~16.6%, потому что 6 пар).

Agreement:
— MTBench 26.1%
— Arena-Hard-v0.1 89.1% (!) — это очень много, у людей-оценщиков между собой не всегда так сходятся оценки. Помню в работах OpenAI при создании датасетов для праотца ChatGPT сами исследователи соглашались друг с другом в ~83% случаев. А тут модель угадывает, что ответит человек, почти в 90%.

Separability:
— MTBench 22.6%
— Arena-Hard-v0.1 87.4% — то есть почти все модели можно разделить в том порядке, что есть сейчас. Это тоже высокий показатель, так как в целом не все модели отличаются. Уж между соседними версиями GPT-4-Turbo действительно может не быть огромной разницы, чтобы обнаружить её бенчмарком.

А как, собственно, собирались данные для оценки?
— Взяли 200'000 запросов от людей на Арене
— сделали кластеризацию по топикам, выделив больше 4000 штук
— использовали GPT-4-turbo для объединения в бОльшие группы (aka иерархическая кластериация)
— определили 7 критериев, по которым GPT-4 будет оценивать кластера. Там и сложность, и креативность, и насколько близко к реальным сценариям использования
— произвели оценку, отфильтровали шлак. Кластеры с более высокой оценкой часто соответствуют сложным темам или задачам по меркам LLM, таким как разработка игр или написание мат. доказательств.
— из оставшихся кластеров с оценкой 6-7 (из 7) выбрали 250 штук, из каждого по 2 запроса. Итого 500 промптов
— Модели пишут ответы на запросы. Затем GPT-4 оценивает сначала пару ответов от модели A и B, а затем наоборот — чтобы побороть предвзятость модели, мол, первый ответ чаще бывает лучше. Полный промпт ищите тут.

BY Сиолошная


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/seeallochnaya/1346

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

He adds: "Telegram has become my primary news source." The picture was mixed overseas. Hong Kong’s Hang Seng Index fell 1.6%, under pressure from U.S. regulatory scrutiny on New York-listed Chinese companies. Stocks were more buoyant in Europe, where Frankfurt’s DAX surged 1.4%. For tech stocks, “the main thing is yields,” Essaye said. WhatsApp, a rival messaging platform, introduced some measures to counter disinformation when Covid-19 was first sweeping the world. Overall, extreme levels of fear in the market seems to have morphed into something more resembling concern. For example, the Cboe Volatility Index fell from its 2022 peak of 36, which it hit Monday, to around 30 on Friday, a sign of easing tensions. Meanwhile, while the price of WTI crude oil slipped from Sunday’s multiyear high $130 of barrel to $109 a pop. Markets have been expecting heavy restrictions on Russian oil, some of which the U.S. has already imposed, and that would reduce the global supply and bring about even more burdensome inflation.
from us


Telegram Сиолошная
FROM American