Telegram Group & Telegram Channel
Собственно, LMSYS почесали репу и придумали новый бенчмарк, Arena Hard v0.1
Ключевых метрики для сравнения с MTBench две:
1. Agreement. Дан запрос и ответы двух LLM. Вот человек выбрал первый или второй как более предпочтительный. В каком проценте случаев автоматическая система оценки будет совпадать с ответом кожаного?
2. Separability. Если мы выберем топ-20 моделей с Arena, то для какой доли пар между всеми моделями их получится разделить с учётом бутстрепа и построения 95%-ого доверительного интервала? (это как раз критерий 1️⃣из поста выше). На пальцах: если у нас 4 модели, то получается 6 пар. Когда мы сравниваем интервалы для этих моделей, то если они не пересекаются, и та модель, что выше в рейтинге по реальным человеческим оценкам, выше и тут — то это +1/6 (~16.6%, потому что 6 пар).

Agreement:
— MTBench 26.1%
— Arena-Hard-v0.1 89.1% (!) — это очень много, у людей-оценщиков между собой не всегда так сходятся оценки. Помню в работах OpenAI при создании датасетов для праотца ChatGPT сами исследователи соглашались друг с другом в ~83% случаев. А тут модель угадывает, что ответит человек, почти в 90%.

Separability:
— MTBench 22.6%
— Arena-Hard-v0.1 87.4% — то есть почти все модели можно разделить в том порядке, что есть сейчас. Это тоже высокий показатель, так как в целом не все модели отличаются. Уж между соседними версиями GPT-4-Turbo действительно может не быть огромной разницы, чтобы обнаружить её бенчмарком.

А как, собственно, собирались данные для оценки?
— Взяли 200'000 запросов от людей на Арене
— сделали кластеризацию по топикам, выделив больше 4000 штук
— использовали GPT-4-turbo для объединения в бОльшие группы (aka иерархическая кластериация)
— определили 7 критериев, по которым GPT-4 будет оценивать кластера. Там и сложность, и креативность, и насколько близко к реальным сценариям использования
— произвели оценку, отфильтровали шлак. Кластеры с более высокой оценкой часто соответствуют сложным темам или задачам по меркам LLM, таким как разработка игр или написание мат. доказательств.
— из оставшихся кластеров с оценкой 6-7 (из 7) выбрали 250 штук, из каждого по 2 запроса. Итого 500 промптов
— Модели пишут ответы на запросы. Затем GPT-4 оценивает сначала пару ответов от модели A и B, а затем наоборот — чтобы побороть предвзятость модели, мол, первый ответ чаще бывает лучше. Полный промпт ищите тут.
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/seeallochnaya/1346
Create:
Last Update:

Собственно, LMSYS почесали репу и придумали новый бенчмарк, Arena Hard v0.1
Ключевых метрики для сравнения с MTBench две:
1. Agreement. Дан запрос и ответы двух LLM. Вот человек выбрал первый или второй как более предпочтительный. В каком проценте случаев автоматическая система оценки будет совпадать с ответом кожаного?
2. Separability. Если мы выберем топ-20 моделей с Arena, то для какой доли пар между всеми моделями их получится разделить с учётом бутстрепа и построения 95%-ого доверительного интервала? (это как раз критерий 1️⃣из поста выше). На пальцах: если у нас 4 модели, то получается 6 пар. Когда мы сравниваем интервалы для этих моделей, то если они не пересекаются, и та модель, что выше в рейтинге по реальным человеческим оценкам, выше и тут — то это +1/6 (~16.6%, потому что 6 пар).

Agreement:
— MTBench 26.1%
— Arena-Hard-v0.1 89.1% (!) — это очень много, у людей-оценщиков между собой не всегда так сходятся оценки. Помню в работах OpenAI при создании датасетов для праотца ChatGPT сами исследователи соглашались друг с другом в ~83% случаев. А тут модель угадывает, что ответит человек, почти в 90%.

Separability:
— MTBench 22.6%
— Arena-Hard-v0.1 87.4% — то есть почти все модели можно разделить в том порядке, что есть сейчас. Это тоже высокий показатель, так как в целом не все модели отличаются. Уж между соседними версиями GPT-4-Turbo действительно может не быть огромной разницы, чтобы обнаружить её бенчмарком.

А как, собственно, собирались данные для оценки?
— Взяли 200'000 запросов от людей на Арене
— сделали кластеризацию по топикам, выделив больше 4000 штук
— использовали GPT-4-turbo для объединения в бОльшие группы (aka иерархическая кластериация)
— определили 7 критериев, по которым GPT-4 будет оценивать кластера. Там и сложность, и креативность, и насколько близко к реальным сценариям использования
— произвели оценку, отфильтровали шлак. Кластеры с более высокой оценкой часто соответствуют сложным темам или задачам по меркам LLM, таким как разработка игр или написание мат. доказательств.
— из оставшихся кластеров с оценкой 6-7 (из 7) выбрали 250 штук, из каждого по 2 запроса. Итого 500 промптов
— Модели пишут ответы на запросы. Затем GPT-4 оценивает сначала пару ответов от модели A и B, а затем наоборот — чтобы побороть предвзятость модели, мол, первый ответ чаще бывает лучше. Полный промпт ищите тут.

BY Сиолошная


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/seeallochnaya/1346

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The War on Fakes channel has repeatedly attempted to push conspiracies that footage from Ukraine is somehow being falsified. One post on the channel from February 24 claimed without evidence that a widely viewed photo of a Ukrainian woman injured in an airstrike in the city of Chuhuiv was doctored and that the woman was seen in a different photo days later without injuries. The post, which has over 600,000 views, also baselessly claimed that the woman's blood was actually makeup or grape juice. What distinguishes the app from competitors is its use of what's known as channels: Public or private feeds of photos and videos that can be set up by one person or an organization. The channels have become popular with on-the-ground journalists, aid workers and Ukrainian President Volodymyr Zelenskyy, who broadcasts on a Telegram channel. The channels can be followed by an unlimited number of people. Unlike Facebook, Twitter and other popular social networks, there is no advertising on Telegram and the flow of information is not driven by an algorithm. Telegram, which does little policing of its content, has also became a hub for Russian propaganda and misinformation. Many pro-Kremlin channels have become popular, alongside accounts of journalists and other independent observers. He adds: "Telegram has become my primary news source." On February 27th, Durov posted that Channels were becoming a source of unverified information and that the company lacks the ability to check on their veracity. He urged users to be mistrustful of the things shared on Channels, and initially threatened to block the feature in the countries involved for the length of the war, saying that he didn’t want Telegram to be used to aggravate conflict or incite ethnic hatred. He did, however, walk back this plan when it became clear that they had also become a vital communications tool for Ukrainian officials and citizens to help coordinate their resistance and evacuations.
from fr


Telegram Сиолошная
FROM American