Warning: mkdir(): No space left on device in /var/www/group-telegram/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/llm_arena/--): Failed to open stream: No such file or directory in /var/www/group-telegram/post.php on line 50
LLM Arena | Telegram Webview: llm_arena/8 -
Telegram Group & Telegram Channel
Новость 4: Недавно зарубежная lmarena.ai добавила в лидерборд вкладу с бенчмарком Arena-Hard-Auto. Отличие Arena-Hard-Auto от обычной арены в том, что в Arena-Hard ответы моделей оценивает не человек, а одна более сильная модель.

В этом подходе есть и плюсы и минусы:
+ Бенчмарк считается и прогоняется для новых моделей меньше чем за час, это на порядки дешевле и быстрее, чем оценивать людьми.
+ Можно самим собирать корзинку из 500 промптов по которым происходит оценка, балансировать сложные/простые промпты для объективности бенчмарка.
+ Результаты Arena-Hard-Auto коррелируют на 89.1% с оценкой людьми, это довольно хороший показатель.
- Возникает небольшое смещение, так как модели оценщики (LLM-as-a-judge) с большей вероятностью голосуют за свою линейку моделей.
- Корзинка из 500 промптов может быть смещена от выборки вопросов людей, иметь перекосы в определенные тематики, трудно составить объективную корзинку.

Так что, подводя итог: обычная арена и Arena-Hard-Auto - это бенчмарки с разной технологией оценки (люди vs LLM), но с большой корреляцией друг с другом.

Мы идем по пути LMSYS арены, поэтому сделали коллаборацию и добавили на страницу лидерборда российскую Arena-Hard-Auto от наших коллег из Vikhr models.



group-telegram.com/llm_arena/8
Create:
Last Update:

Новость 4: Недавно зарубежная lmarena.ai добавила в лидерборд вкладу с бенчмарком Arena-Hard-Auto. Отличие Arena-Hard-Auto от обычной арены в том, что в Arena-Hard ответы моделей оценивает не человек, а одна более сильная модель.

В этом подходе есть и плюсы и минусы:
+ Бенчмарк считается и прогоняется для новых моделей меньше чем за час, это на порядки дешевле и быстрее, чем оценивать людьми.
+ Можно самим собирать корзинку из 500 промптов по которым происходит оценка, балансировать сложные/простые промпты для объективности бенчмарка.
+ Результаты Arena-Hard-Auto коррелируют на 89.1% с оценкой людьми, это довольно хороший показатель.
- Возникает небольшое смещение, так как модели оценщики (LLM-as-a-judge) с большей вероятностью голосуют за свою линейку моделей.
- Корзинка из 500 промптов может быть смещена от выборки вопросов людей, иметь перекосы в определенные тематики, трудно составить объективную корзинку.

Так что, подводя итог: обычная арена и Arena-Hard-Auto - это бенчмарки с разной технологией оценки (люди vs LLM), но с большой корреляцией друг с другом.

Мы идем по пути LMSYS арены, поэтому сделали коллаборацию и добавили на страницу лидерборда российскую Arena-Hard-Auto от наших коллег из Vikhr models.

BY LLM Arena


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/llm_arena/8

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"Russians are really disconnected from the reality of what happening to their country," Andrey said. "So Telegram has become essential for understanding what's going on to the Russian-speaking world." Following this, Sebi, in an order passed in January 2022, established that the administrators of a Telegram channel having a large subscriber base enticed the subscribers to act upon recommendations that were circulated by those administrators on the channel, leading to significant price and volume impact in various scrips. "Someone posing as a Ukrainian citizen just joins the chat and starts spreading misinformation, or gathers data, like the location of shelters," Tsekhanovska said, noting how false messages have urged Ukrainians to turn off their phones at a specific time of night, citing cybersafety. Pavel Durov, a billionaire who embraces an all-black wardrobe and is often compared to the character Neo from "the Matrix," funds Telegram through his personal wealth and debt financing. And despite being one of the world's most popular tech companies, Telegram reportedly has only about 30 employees who defer to Durov for most major decisions about the platform. For example, WhatsApp restricted the number of times a user could forward something, and developed automated systems that detect and flag objectionable content.
from cn


Telegram LLM Arena
FROM American