Telegram Group & Telegram Channel
Уже несколько раз писал про LMSYS Arena (из неё кстати убрали gpt2-chatbot 🥲) — место, где вы вслепую сравниваете два ответа LLM на ВАШ запрос, и по тысячам таких сравнений строится оценка, какая модель лучше. Если живые люди стабильно предпочитают одну модель над другой на широком наборе запросов — можно говорить, что она лучше (по крайней мере в этом контексте).

Способ оценки неплохой, но очень накладной: нужно с одной стороны оплачивать API моделей/выпрашивать кредиты, а с другой нагонять трафик, а затем ждать, пока наберётся статистика. Если моделей всего 10-20, то проблем нет, но сейчас буквально каждый день появляется с десяток! Хочется как-то отфильтровать уж совсем мусор, и достойных кандидатов выпускать на Арену.

Делать это можно прогоном моделей по каким-то предварительным данным с последующей автоматической оценкой. Требований к датасету несколько:
1️⃣ возможность надежного разделения моделей разного уровня навыков
2️⃣ отражение человеческих предпочтений в реальных сценариях использования
3️⃣ должен обновляться со временем, чтобы свежие модели не могли переобучиться и показать результаты выше объективных
(в идеале ещё быстро & дешево, но тут как в анекдоте, выберите 2 из 3)

Вот именно с последним зачастую возникают проблемы, хоть и второй2️⃣пункт тоже с полпинка не заведётся. Так, авторы Арены ещё год назад придумали MTBench: у них на руках были запросы пользователей, они посмотрели на частотность, и придумали 80 вопросов, по 10 в 8 категориях, которые якобы отражают распределение сообщений от людей. В качестве оценщика выступала GPT-4, исследователи проверили, насколько хорошо модель справляется с угадыванием мнений людей, насколько откалибровано её мнение и какие биасы заложены. Например, модель всегда поощряет более длинные ответы, а также безумно рада «своим» генерациям (то есть от GPT-4).

В итоге, MTBench какое-то время был хоть немного, но актуальным бенчмарком. Но сейчас, к сожалению, его оценка перестала удовлетворять как минимум первому1️⃣ требованию из списка — разделимость моделей. Вот GPT-4 имеет оценку 8.6 (из 10), Claude 3 Opus 8.6, другие модели около 8.1-8.2 болтаются — но ведь вопросов всего 80! И потому доверительные интервалы очень широкие, и нельзя надёжно сказать, что вот одно лучше другого. И никаих обновлений по3️⃣не было. Как быть, кто виноват и что делать?
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/seeallochnaya/1345
Create:
Last Update:

Уже несколько раз писал про LMSYS Arena (из неё кстати убрали gpt2-chatbot 🥲) — место, где вы вслепую сравниваете два ответа LLM на ВАШ запрос, и по тысячам таких сравнений строится оценка, какая модель лучше. Если живые люди стабильно предпочитают одну модель над другой на широком наборе запросов — можно говорить, что она лучше (по крайней мере в этом контексте).

Способ оценки неплохой, но очень накладной: нужно с одной стороны оплачивать API моделей/выпрашивать кредиты, а с другой нагонять трафик, а затем ждать, пока наберётся статистика. Если моделей всего 10-20, то проблем нет, но сейчас буквально каждый день появляется с десяток! Хочется как-то отфильтровать уж совсем мусор, и достойных кандидатов выпускать на Арену.

Делать это можно прогоном моделей по каким-то предварительным данным с последующей автоматической оценкой. Требований к датасету несколько:
1️⃣ возможность надежного разделения моделей разного уровня навыков
2️⃣ отражение человеческих предпочтений в реальных сценариях использования
3️⃣ должен обновляться со временем, чтобы свежие модели не могли переобучиться и показать результаты выше объективных
(в идеале ещё быстро & дешево, но тут как в анекдоте, выберите 2 из 3)

Вот именно с последним зачастую возникают проблемы, хоть и второй2️⃣пункт тоже с полпинка не заведётся. Так, авторы Арены ещё год назад придумали MTBench: у них на руках были запросы пользователей, они посмотрели на частотность, и придумали 80 вопросов, по 10 в 8 категориях, которые якобы отражают распределение сообщений от людей. В качестве оценщика выступала GPT-4, исследователи проверили, насколько хорошо модель справляется с угадыванием мнений людей, насколько откалибровано её мнение и какие биасы заложены. Например, модель всегда поощряет более длинные ответы, а также безумно рада «своим» генерациям (то есть от GPT-4).

В итоге, MTBench какое-то время был хоть немного, но актуальным бенчмарком. Но сейчас, к сожалению, его оценка перестала удовлетворять как минимум первому1️⃣ требованию из списка — разделимость моделей. Вот GPT-4 имеет оценку 8.6 (из 10), Claude 3 Opus 8.6, другие модели около 8.1-8.2 болтаются — но ведь вопросов всего 80! И потому доверительные интервалы очень широкие, и нельзя надёжно сказать, что вот одно лучше другого. И никаих обновлений по3️⃣не было. Как быть, кто виноват и что делать?

BY Сиолошная


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/seeallochnaya/1345

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

It is unclear who runs the account, although Russia's official Ministry of Foreign Affairs Twitter account promoted the Telegram channel on Saturday and claimed it was operated by "a group of experts & journalists." Apparently upbeat developments in Russia's discussions with Ukraine helped at least temporarily send investors back into risk assets. Russian President Vladimir Putin said during a meeting with his Belarusian counterpart Alexander Lukashenko that there were "certain positive developments" occurring in the talks with Ukraine, according to a transcript of their meeting. Putin added that discussions were happening "almost on a daily basis." Telegram was co-founded by Pavel and Nikolai Durov, the brothers who had previously created VKontakte. VK is Russia’s equivalent of Facebook, a social network used for public and private messaging, audio and video sharing as well as online gaming. In January, SimpleWeb reported that VK was Russia’s fourth most-visited website, after Yandex, YouTube and Google’s Russian-language homepage. In 2016, Forbes’ Michael Solomon described Pavel Durov (pictured, below) as the “Mark Zuckerberg of Russia.” Under the Sebi Act, the regulator has the power to carry out search and seizure of books, registers, documents including electronics and digital devices from any person associated with the securities market. Ukrainian President Volodymyr Zelensky said in a video message on Tuesday that Ukrainian forces "destroy the invaders wherever we can."
from tw


Telegram Сиолошная
FROM American