Telegram Group & Telegram Channel
Собственно, LMSYS почесали репу и придумали новый бенчмарк, Arena Hard v0.1
Ключевых метрики для сравнения с MTBench две:
1. Agreement. Дан запрос и ответы двух LLM. Вот человек выбрал первый или второй как более предпочтительный. В каком проценте случаев автоматическая система оценки будет совпадать с ответом кожаного?
2. Separability. Если мы выберем топ-20 моделей с Arena, то для какой доли пар между всеми моделями их получится разделить с учётом бутстрепа и построения 95%-ого доверительного интервала? (это как раз критерий 1️⃣из поста выше). На пальцах: если у нас 4 модели, то получается 6 пар. Когда мы сравниваем интервалы для этих моделей, то если они не пересекаются, и та модель, что выше в рейтинге по реальным человеческим оценкам, выше и тут — то это +1/6 (~16.6%, потому что 6 пар).

Agreement:
— MTBench 26.1%
— Arena-Hard-v0.1 89.1% (!) — это очень много, у людей-оценщиков между собой не всегда так сходятся оценки. Помню в работах OpenAI при создании датасетов для праотца ChatGPT сами исследователи соглашались друг с другом в ~83% случаев. А тут модель угадывает, что ответит человек, почти в 90%.

Separability:
— MTBench 22.6%
— Arena-Hard-v0.1 87.4% — то есть почти все модели можно разделить в том порядке, что есть сейчас. Это тоже высокий показатель, так как в целом не все модели отличаются. Уж между соседними версиями GPT-4-Turbo действительно может не быть огромной разницы, чтобы обнаружить её бенчмарком.

А как, собственно, собирались данные для оценки?
— Взяли 200'000 запросов от людей на Арене
— сделали кластеризацию по топикам, выделив больше 4000 штук
— использовали GPT-4-turbo для объединения в бОльшие группы (aka иерархическая кластериация)
— определили 7 критериев, по которым GPT-4 будет оценивать кластера. Там и сложность, и креативность, и насколько близко к реальным сценариям использования
— произвели оценку, отфильтровали шлак. Кластеры с более высокой оценкой часто соответствуют сложным темам или задачам по меркам LLM, таким как разработка игр или написание мат. доказательств.
— из оставшихся кластеров с оценкой 6-7 (из 7) выбрали 250 штук, из каждого по 2 запроса. Итого 500 промптов
— Модели пишут ответы на запросы. Затем GPT-4 оценивает сначала пару ответов от модели A и B, а затем наоборот — чтобы побороть предвзятость модели, мол, первый ответ чаще бывает лучше. Полный промпт ищите тут.
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/seeallochnaya/1346
Create:
Last Update:

Собственно, LMSYS почесали репу и придумали новый бенчмарк, Arena Hard v0.1
Ключевых метрики для сравнения с MTBench две:
1. Agreement. Дан запрос и ответы двух LLM. Вот человек выбрал первый или второй как более предпочтительный. В каком проценте случаев автоматическая система оценки будет совпадать с ответом кожаного?
2. Separability. Если мы выберем топ-20 моделей с Arena, то для какой доли пар между всеми моделями их получится разделить с учётом бутстрепа и построения 95%-ого доверительного интервала? (это как раз критерий 1️⃣из поста выше). На пальцах: если у нас 4 модели, то получается 6 пар. Когда мы сравниваем интервалы для этих моделей, то если они не пересекаются, и та модель, что выше в рейтинге по реальным человеческим оценкам, выше и тут — то это +1/6 (~16.6%, потому что 6 пар).

Agreement:
— MTBench 26.1%
— Arena-Hard-v0.1 89.1% (!) — это очень много, у людей-оценщиков между собой не всегда так сходятся оценки. Помню в работах OpenAI при создании датасетов для праотца ChatGPT сами исследователи соглашались друг с другом в ~83% случаев. А тут модель угадывает, что ответит человек, почти в 90%.

Separability:
— MTBench 22.6%
— Arena-Hard-v0.1 87.4% — то есть почти все модели можно разделить в том порядке, что есть сейчас. Это тоже высокий показатель, так как в целом не все модели отличаются. Уж между соседними версиями GPT-4-Turbo действительно может не быть огромной разницы, чтобы обнаружить её бенчмарком.

А как, собственно, собирались данные для оценки?
— Взяли 200'000 запросов от людей на Арене
— сделали кластеризацию по топикам, выделив больше 4000 штук
— использовали GPT-4-turbo для объединения в бОльшие группы (aka иерархическая кластериация)
— определили 7 критериев, по которым GPT-4 будет оценивать кластера. Там и сложность, и креативность, и насколько близко к реальным сценариям использования
— произвели оценку, отфильтровали шлак. Кластеры с более высокой оценкой часто соответствуют сложным темам или задачам по меркам LLM, таким как разработка игр или написание мат. доказательств.
— из оставшихся кластеров с оценкой 6-7 (из 7) выбрали 250 штук, из каждого по 2 запроса. Итого 500 промптов
— Модели пишут ответы на запросы. Затем GPT-4 оценивает сначала пару ответов от модели A и B, а затем наоборот — чтобы побороть предвзятость модели, мол, первый ответ чаще бывает лучше. Полный промпт ищите тут.

BY Сиолошная


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/seeallochnaya/1346

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Soloviev also promoted the channel in a post he shared on his own Telegram, which has 580,000 followers. The post recommended his viewers subscribe to "War on Fakes" in a time of fake news. On Telegram’s website, it says that Pavel Durov “supports Telegram financially and ideologically while Nikolai (Duvov)’s input is technological.” Currently, the Telegram team is based in Dubai, having moved around from Berlin, London and Singapore after departing Russia. Meanwhile, the company which owns Telegram is registered in the British Virgin Islands. Additionally, investors are often instructed to deposit monies into personal bank accounts of individuals who claim to represent a legitimate entity, and/or into an unrelated corporate account. To lend credence and to lure unsuspecting victims, perpetrators usually claim that their entity and/or the investment schemes are approved by financial authorities. After fleeing Russia, the brothers founded Telegram as a way to communicate outside the Kremlin's orbit. They now run it from Dubai, and Pavel Durov says it has more than 500 million monthly active users. But Telegram says people want to keep their chat history when they get a new phone, and they like having a data backup that will sync their chats across multiple devices. And that is why they let people choose whether they want their messages to be encrypted or not. When not turned on, though, chats are stored on Telegram's services, which are scattered throughout the world. But it has "disclosed 0 bytes of user data to third parties, including governments," Telegram states on its website.
from kr


Telegram Сиолошная
FROM American