group-telegram.com/ai_newz/2653
Last Update:
Авторы ChatBot Arena, хотят её (частично) автоматизовать
Кажется на бенчмарке Arena Hard v0.1 останавливаться не собираются, и поэтому авторы ChatBot Arena проводят Kaggle конкурс на reward модель для RLHF. Нужно обучить модель, которая будет предсказывать, какой ответ LLM будет предпочтен человеком. Такую модель можно будет использовать и для улучшения качества ответов существующих моделей и для оценки ответов моделей как альтернатива человеческим голосам.
Автоматизация для обучения LLM сейчас есть лишь частичная потому что человеческие аннотации всё ещё нужны: (а) для генерации синтетических данных (б) для оценки их качества (в) на последних стадиях тюна синтетику используют поменьше.
Участникам даётся датасет на 55к примеров. Каждый пример состоит из: запроса, ответа двух нейронок и предпочтения человека. Победителя будут определять на тестовом сете в 25к примеров.
На конкурс выделили призовой фонд в $100k, который распределяют вот так:
🥇$25,000 за первое место
🥈$20,000 за 2-4 места
🥉$15,000 за 5 место
Соревнования на Kaggle это очень хорошее место для развития и во многом повлияли на мою карьеру (я в своё время был топ-45 на платформе).
Так что если хочешь участвовать - в комментах можно организоваться и найти себе команду
@ai_newz
BY эйай ньюз
Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260
Share with your friend now:
group-telegram.com/ai_newz/2653