group-telegram.com/ai_newz/2652
Last Update:
Раз уж в последнее время много говорим про ChatBot Arena, то грех было бы не упомянуть про новый бенчмарк от тех же авторов – Arena Hard v0.1. Суть в том, что хочется найти способ оценивать качество моделей без участия людей, вот и придумали новый бенчмарк, который аппроксимирует человеческую оценку – конечно не без предвзятости, т.к. используют GPT-4 для оценки моделей, но зато быстро!
Я собирался написать более детальный разбор, но увидел, что это сделал Игорь @seeallochnaya. Можно начинать читать отсюда https://www.group-telegram.com/seeallochnaya/1345 и идти вниз по постам-картинкам.
И вообще, у Игоря на канале качественные посты про LLM, от их влияния на бизнес и до разбора передовых исследовательских статей. Пользуясь случаем, рекомендую вам подписаться — в прошлый раз советовал лекцию с рамках DataFest 2023, а уже совсем скоро, в конце мая, будет DataFest 2024. Игорь организует там целую секцию, и выступит с открывающим докладом - так что не пропустите!
@ai_newz
BY эйай ньюз
Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260
Share with your friend now:
group-telegram.com/ai_newz/2652