group-telegram.com/nlpwanderer/65
Last Update:
Обновление арены на Github от 27 октября
Офлайновая ru_llm_arena на Github была обновлена новыми моделями:
- Aya Expanse 8b
- Yandex GPT 4 (Pro и lite)
- Qwen2.5 14B
Все ответы моделей и вердикты судьи, также доступны в папке data на Github.
Напомню, что арена на GIthub отличается от арены на HF, тем что в ней испольуется в качестве судьи gpt-1106-preview, что дает более низкие скоры и, на мой взгляд, более справделивые.
Кроме того, в README мы пометили наши модели (Vikhr) с помошью "(!)", так как Илья Гусев недавно сообщал, что часть данных арены была случайно использована в SFT. Подробнее в комментариях к его посту. Мое мнение по этому поводу кратко: мы не считаем, что добавление данных арены в SFT дает большой буст, так как SFT версия нашей модели имеет скор 65, а ключ успеха лежит именно в SMPO этапе, про который мы скоро расскажем подробнее, в него утекло только 9 строк из арены, что не могло сильно повлиять на качество. В любом случае замечения мы услышали и отметили.
Скоро арену ждет масштабное обновление, которое сделает оценку моделей разноплановой, реалистичной и понятной.
BY NLP Wanderer
Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260
Share with your friend now:
group-telegram.com/nlpwanderer/65