Telegram Group & Telegram Channel
Уже несколько раз писал про LMSYS Arena (из неё кстати убрали gpt2-chatbot 🥲) — место, где вы вслепую сравниваете два ответа LLM на ВАШ запрос, и по тысячам таких сравнений строится оценка, какая модель лучше. Если живые люди стабильно предпочитают одну модель над другой на широком наборе запросов — можно говорить, что она лучше (по крайней мере в этом контексте).

Способ оценки неплохой, но очень накладной: нужно с одной стороны оплачивать API моделей/выпрашивать кредиты, а с другой нагонять трафик, а затем ждать, пока наберётся статистика. Если моделей всего 10-20, то проблем нет, но сейчас буквально каждый день появляется с десяток! Хочется как-то отфильтровать уж совсем мусор, и достойных кандидатов выпускать на Арену.

Делать это можно прогоном моделей по каким-то предварительным данным с последующей автоматической оценкой. Требований к датасету несколько:
1️⃣ возможность надежного разделения моделей разного уровня навыков
2️⃣ отражение человеческих предпочтений в реальных сценариях использования
3️⃣ должен обновляться со временем, чтобы свежие модели не могли переобучиться и показать результаты выше объективных
(в идеале ещё быстро & дешево, но тут как в анекдоте, выберите 2 из 3)

Вот именно с последним зачастую возникают проблемы, хоть и второй2️⃣пункт тоже с полпинка не заведётся. Так, авторы Арены ещё год назад придумали MTBench: у них на руках были запросы пользователей, они посмотрели на частотность, и придумали 80 вопросов, по 10 в 8 категориях, которые якобы отражают распределение сообщений от людей. В качестве оценщика выступала GPT-4, исследователи проверили, насколько хорошо модель справляется с угадыванием мнений людей, насколько откалибровано её мнение и какие биасы заложены. Например, модель всегда поощряет более длинные ответы, а также безумно рада «своим» генерациям (то есть от GPT-4).

В итоге, MTBench какое-то время был хоть немного, но актуальным бенчмарком. Но сейчас, к сожалению, его оценка перестала удовлетворять как минимум первому1️⃣ требованию из списка — разделимость моделей. Вот GPT-4 имеет оценку 8.6 (из 10), Claude 3 Opus 8.6, другие модели около 8.1-8.2 болтаются — но ведь вопросов всего 80! И потому доверительные интервалы очень широкие, и нельзя надёжно сказать, что вот одно лучше другого. И никаих обновлений по3️⃣не было. Как быть, кто виноват и что делать?
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/seeallochnaya/1345
Create:
Last Update:

Уже несколько раз писал про LMSYS Arena (из неё кстати убрали gpt2-chatbot 🥲) — место, где вы вслепую сравниваете два ответа LLM на ВАШ запрос, и по тысячам таких сравнений строится оценка, какая модель лучше. Если живые люди стабильно предпочитают одну модель над другой на широком наборе запросов — можно говорить, что она лучше (по крайней мере в этом контексте).

Способ оценки неплохой, но очень накладной: нужно с одной стороны оплачивать API моделей/выпрашивать кредиты, а с другой нагонять трафик, а затем ждать, пока наберётся статистика. Если моделей всего 10-20, то проблем нет, но сейчас буквально каждый день появляется с десяток! Хочется как-то отфильтровать уж совсем мусор, и достойных кандидатов выпускать на Арену.

Делать это можно прогоном моделей по каким-то предварительным данным с последующей автоматической оценкой. Требований к датасету несколько:
1️⃣ возможность надежного разделения моделей разного уровня навыков
2️⃣ отражение человеческих предпочтений в реальных сценариях использования
3️⃣ должен обновляться со временем, чтобы свежие модели не могли переобучиться и показать результаты выше объективных
(в идеале ещё быстро & дешево, но тут как в анекдоте, выберите 2 из 3)

Вот именно с последним зачастую возникают проблемы, хоть и второй2️⃣пункт тоже с полпинка не заведётся. Так, авторы Арены ещё год назад придумали MTBench: у них на руках были запросы пользователей, они посмотрели на частотность, и придумали 80 вопросов, по 10 в 8 категориях, которые якобы отражают распределение сообщений от людей. В качестве оценщика выступала GPT-4, исследователи проверили, насколько хорошо модель справляется с угадыванием мнений людей, насколько откалибровано её мнение и какие биасы заложены. Например, модель всегда поощряет более длинные ответы, а также безумно рада «своим» генерациям (то есть от GPT-4).

В итоге, MTBench какое-то время был хоть немного, но актуальным бенчмарком. Но сейчас, к сожалению, его оценка перестала удовлетворять как минимум первому1️⃣ требованию из списка — разделимость моделей. Вот GPT-4 имеет оценку 8.6 (из 10), Claude 3 Opus 8.6, другие модели около 8.1-8.2 болтаются — но ведь вопросов всего 80! И потому доверительные интервалы очень широкие, и нельзя надёжно сказать, что вот одно лучше другого. И никаих обновлений по3️⃣не было. Как быть, кто виноват и что делать?

BY Сиолошная


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/seeallochnaya/1345

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram boasts 500 million users, who share information individually and in groups in relative security. But Telegram's use as a one-way broadcast channel — which followers can join but not reply to — means content from inauthentic accounts can easily reach large, captive and eager audiences. And indeed, volatility has been a hallmark of the market environment so far in 2022, with the S&P 500 still down more than 10% for the year-to-date after first sliding into a correction last month. The CBOE Volatility Index, or VIX, has held at a lofty level of more than 30. Oh no. There’s a certain degree of myth-making around what exactly went on, so take everything that follows lightly. Telegram was originally launched as a side project by the Durov brothers, with Nikolai handling the coding and Pavel as CEO, while both were at VK. But the Ukraine Crisis Media Center's Tsekhanovska points out that communications are often down in zones most affected by the war, making this sort of cross-referencing a luxury many cannot afford. To that end, when files are actively downloading, a new icon now appears in the Search bar that users can tap to view and manage downloads, pause and resume all downloads or just individual items, and select one to increase its priority or view it in a chat.
from sg


Telegram Сиолошная
FROM American