Новость 4: Недавно зарубежная lmarena.ai добавила в лидерборд вкладу с бенчмарком Arena-Hard-Auto. Отличие Arena-Hard-Auto от обычной арены в том, что в Arena-Hard ответы моделей оценивает не человек, а одна более сильная модель.
В этом подходе есть и плюсы и минусы: + Бенчмарк считается и прогоняется для новых моделей меньше чем за час, это на порядки дешевле и быстрее, чем оценивать людьми. + Можно самим собирать корзинку из 500 промптов по которым происходит оценка, балансировать сложные/простые промпты для объективности бенчмарка. + Результаты Arena-Hard-Auto коррелируют на 89.1% с оценкой людьми, это довольно хороший показатель. - Возникает небольшое смещение, так как модели оценщики (LLM-as-a-judge) с большей вероятностью голосуют за свою линейку моделей. - Корзинка из 500 промптов может быть смещена от выборки вопросов людей, иметь перекосы в определенные тематики, трудно составить объективную корзинку.
Так что, подводя итог: обычная арена и Arena-Hard-Auto - это бенчмарки с разной технологией оценки (люди vs LLM), но с большой корреляцией друг с другом.
Мы идем по пути LMSYS арены, поэтому сделали коллаборацию и добавили на страницу лидерборда российскую Arena-Hard-Auto от наших коллег из Vikhr models.
Новость 4: Недавно зарубежная lmarena.ai добавила в лидерборд вкладу с бенчмарком Arena-Hard-Auto. Отличие Arena-Hard-Auto от обычной арены в том, что в Arena-Hard ответы моделей оценивает не человек, а одна более сильная модель.
В этом подходе есть и плюсы и минусы: + Бенчмарк считается и прогоняется для новых моделей меньше чем за час, это на порядки дешевле и быстрее, чем оценивать людьми. + Можно самим собирать корзинку из 500 промптов по которым происходит оценка, балансировать сложные/простые промпты для объективности бенчмарка. + Результаты Arena-Hard-Auto коррелируют на 89.1% с оценкой людьми, это довольно хороший показатель. - Возникает небольшое смещение, так как модели оценщики (LLM-as-a-judge) с большей вероятностью голосуют за свою линейку моделей. - Корзинка из 500 промптов может быть смещена от выборки вопросов людей, иметь перекосы в определенные тематики, трудно составить объективную корзинку.
Так что, подводя итог: обычная арена и Arena-Hard-Auto - это бенчмарки с разной технологией оценки (люди vs LLM), но с большой корреляцией друг с другом.
Мы идем по пути LMSYS арены, поэтому сделали коллаборацию и добавили на страницу лидерборда российскую Arena-Hard-Auto от наших коллег из Vikhr models.
BY LLM Arena
Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260
In a message on his Telegram channel recently recounting the episode, Durov wrote: "I lost my company and my home, but would do it again – without hesitation." Stocks closed in the red Friday as investors weighed upbeat remarks from Russian President Vladimir Putin about diplomatic discussions with Ukraine against a weaker-than-expected print on U.S. consumer sentiment. Telegram was co-founded by Pavel and Nikolai Durov, the brothers who had previously created VKontakte. VK is Russia’s equivalent of Facebook, a social network used for public and private messaging, audio and video sharing as well as online gaming. In January, SimpleWeb reported that VK was Russia’s fourth most-visited website, after Yandex, YouTube and Google’s Russian-language homepage. In 2016, Forbes’ Michael Solomon described Pavel Durov (pictured, below) as the “Mark Zuckerberg of Russia.” Andrey, a Russian entrepreneur living in Brazil who, fearing retaliation, asked that NPR not use his last name, said Telegram has become one of the few places Russians can access independent news about the war. Asked about its stance on disinformation, Telegram spokesperson Remi Vaughn told AFP: "As noted by our CEO, the sheer volume of information being shared on channels makes it extremely difficult to verify, so it's important that users double-check what they read."
from sg