group-telegram.com/ai_newz/3158
Last Update:
LLM Arena для русскоязычных моделей
Мои знакомые из Vikhrmodels, которые занимаются русскоязычным open-source проектом, создают свои модели и проводят дообучение на основе мультиязычных моделей, недавно выпустили свой набор бенчмарков!
C рускоязычными открытыми LLM очень все сложно - их очень мало. В лучшем случае это дообученные LLam_ы. Но в целом топ LLM с поддержкой русского языка выглядит так:
- Gpt4o
- Gpt4o mini
- LLaMa 3.1 405b
- LLaMa 3.1 70b
- Gemma 27b
- LLaMa 3 70b
RuArenaGeneral — бенчмарк на основе lmsys arenahard . Это единственный полностью открытый современный бенчмарк на русском языке.
В отличие от классической арены, здесь в качестве судьи выступает GPT-4o, благодаря чему арена оценивается очень быстро (новые модели добавляются всего за час), и её можно воспроизводить локально! Кроме того, благодаря использованию LLM в качестве судьи и известности запросов заранее, арена хорошо коррелирует с оригинальной ареной lmsys.org.
На арене каждую неделю появляются новые модели с поддержкой русского языка или русифицированные.
Шлёпа lb — это маленький бенчмарк с множественным выбором (как в ЕГЭ, где выбираются варианты ответа), включающий задачи на знание мира, а также перевод mmlupro. В отличие от Mera, сабмиты полностью оцениваются локально, и можно сразу получить результат на локальной машине, например, во время обучения!
Для новчиков - тут я писал подробнее, что такое ChatBot Arena.
@ai_newz
BY эйай ньюз
Share with your friend now:
group-telegram.com/ai_newz/3158