Telegram Group & Telegram Channel
Новость 4: Недавно зарубежная lmarena.ai добавила в лидерборд вкладу с бенчмарком Arena-Hard-Auto. Отличие Arena-Hard-Auto от обычной арены в том, что в Arena-Hard ответы моделей оценивает не человек, а одна более сильная модель.

В этом подходе есть и плюсы и минусы:
+ Бенчмарк считается и прогоняется для новых моделей меньше чем за час, это на порядки дешевле и быстрее, чем оценивать людьми.
+ Можно самим собирать корзинку из 500 промптов по которым происходит оценка, балансировать сложные/простые промпты для объективности бенчмарка.
+ Результаты Arena-Hard-Auto коррелируют на 89.1% с оценкой людьми, это довольно хороший показатель.
- Возникает небольшое смещение, так как модели оценщики (LLM-as-a-judge) с большей вероятностью голосуют за свою линейку моделей.
- Корзинка из 500 промптов может быть смещена от выборки вопросов людей, иметь перекосы в определенные тематики, трудно составить объективную корзинку.

Так что, подводя итог: обычная арена и Arena-Hard-Auto - это бенчмарки с разной технологией оценки (люди vs LLM), но с большой корреляцией друг с другом.

Мы идем по пути LMSYS арены, поэтому сделали коллаборацию и добавили на страницу лидерборда российскую Arena-Hard-Auto от наших коллег из Vikhr models.



group-telegram.com/llm_arena/8
Create:
Last Update:

Новость 4: Недавно зарубежная lmarena.ai добавила в лидерборд вкладу с бенчмарком Arena-Hard-Auto. Отличие Arena-Hard-Auto от обычной арены в том, что в Arena-Hard ответы моделей оценивает не человек, а одна более сильная модель.

В этом подходе есть и плюсы и минусы:
+ Бенчмарк считается и прогоняется для новых моделей меньше чем за час, это на порядки дешевле и быстрее, чем оценивать людьми.
+ Можно самим собирать корзинку из 500 промптов по которым происходит оценка, балансировать сложные/простые промпты для объективности бенчмарка.
+ Результаты Arena-Hard-Auto коррелируют на 89.1% с оценкой людьми, это довольно хороший показатель.
- Возникает небольшое смещение, так как модели оценщики (LLM-as-a-judge) с большей вероятностью голосуют за свою линейку моделей.
- Корзинка из 500 промптов может быть смещена от выборки вопросов людей, иметь перекосы в определенные тематики, трудно составить объективную корзинку.

Так что, подводя итог: обычная арена и Arena-Hard-Auto - это бенчмарки с разной технологией оценки (люди vs LLM), но с большой корреляцией друг с другом.

Мы идем по пути LMSYS арены, поэтому сделали коллаборацию и добавили на страницу лидерборда российскую Arena-Hard-Auto от наших коллег из Vikhr models.

BY LLM Arena


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/llm_arena/8

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

These entities are reportedly operating nine Telegram channels with more than five million subscribers to whom they were making recommendations on selected listed scrips. Such recommendations induced the investors to deal in the said scrips, thereby creating artificial volume and price rise. The fake Zelenskiy account reached 20,000 followers on Telegram before it was shut down, a remedial action that experts say is all too rare. In 2018, Russia banned Telegram although it reversed the prohibition two years later. Telegram was founded in 2013 by two Russian brothers, Nikolai and Pavel Durov. There was another possible development: Reuters also reported that Ukraine said that Belarus could soon join the invasion of Ukraine. However, the AFP, citing a Pentagon official, said the U.S. hasn’t yet seen evidence that Belarusian troops are in Ukraine.
from us


Telegram LLM Arena
FROM American