group-telegram.com/ai_newz/2528
Last Update:
Chatbot Arena: В топе LLM арены в этом месяце заметные перестановки
* GPT-4 уступила своё лидерство Claude 3 Opus
* Старые версии GPT-4 проигрывают даже Claude 3 Haiku - а он ведь дешевле GPT-3.5 (!)
* Command R от Cohere прошла в топ 10, при том что у неё всего 35 миллиарда параметров (а ещё её можно скачать)
Что за Chatbot Arena?
Chatbot Arena – это пожалуй один из самых внушающих доверие рейтингов LLM, т.к. там тестируют модели в "полевых условиях" на случайных запросах от пользователей. За место в рейтинге на Chatbot Arena модели соревнуются путём дуэлей друг с другом – на сайте юзеры общаются с двумя анонимными LLM одновременно и голосуют за лучшую из этих двух. Рейтинг определяется по системе ELO (её также используют для определения рейтинга игроков в шахматах).
Недавней DBRX на лидерборде арены ещё нет из-за недостаточного количества голосов, но это можно исправить – любой может зайти на арену и потестировать пару LLM-ок вслепую.
Почитать подробнее про Арену:
- Блогпост
- Статья
- Лидерборд
#ликбез
@ai_newz
BY эйай ньюз
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/gadJtCBxJIkDCakbSUaBI-fj8Tw-gXfqbuHOjRCD0K38-IJV0nfWj6fZ6m997yNmYJzrAWaZYU3tTdq5yTIKUwMKJINAtHwcxgYARlMwTlFbyiQjwQtxZrdVyqMMA5x5M-G9R77QBxVZCbg3I-itBYxDElMkmdRa-4crGPV-3Kz2G306HdECMO9F5157kK9ddW7D10NLSitJ3-jseedsEf4yUGnDcvF922tSODlXvhdj8C6PMsNOOcvByB3e_lFPpickhr4wrbHMbipCk0SRHWy69Tinegh6Fa-qS1i9PHgSAQQkuMNFWimBbieKAGBBrkuURfChSBp8cLCejtffpg.jpg)
Share with your friend now:
group-telegram.com/ai_newz/2528