Telegram Group & Telegram Channel
Chatbot Arena: В топе LLM арены в этом месяце заметные перестановки

* GPT-4 уступила своё лидерство Claude 3 Opus
* Старые версии GPT-4 проигрывают даже Claude 3 Haiku - а он ведь дешевле GPT-3.5 (!)
* Command R от Cohere прошла в топ 10, при том что у неё всего 35 миллиарда параметров (а ещё её можно скачать)

Что за Chatbot Arena?
Chatbot Arena – это пожалуй один из самых внушающих доверие рейтингов LLM, т.к. там тестируют модели в "полевых условиях" на случайных запросах от пользователей. За место в рейтинге на Chatbot Arena модели соревнуются путём дуэлей друг с другом – на сайте юзеры общаются с двумя анонимными LLM одновременно и голосуют за лучшую из этих двух. Рейтинг определяется по системе ELO (её также используют для определения рейтинга игроков в шахматах).

Недавней DBRX на лидерборде арены ещё нет из-за недостаточного количества голосов, но это можно исправить – любой может зайти на арену и потестировать пару LLM-ок вслепую.

Почитать подробнее про Арену:
- Блогпост
- Статья
- Лидерборд

#ликбез
@ai_newz



group-telegram.com/ai_newz/2528
Create:
Last Update:

Chatbot Arena: В топе LLM арены в этом месяце заметные перестановки

* GPT-4 уступила своё лидерство Claude 3 Opus
* Старые версии GPT-4 проигрывают даже Claude 3 Haiku - а он ведь дешевле GPT-3.5 (!)
* Command R от Cohere прошла в топ 10, при том что у неё всего 35 миллиарда параметров (а ещё её можно скачать)

Что за Chatbot Arena?
Chatbot Arena – это пожалуй один из самых внушающих доверие рейтингов LLM, т.к. там тестируют модели в "полевых условиях" на случайных запросах от пользователей. За место в рейтинге на Chatbot Arena модели соревнуются путём дуэлей друг с другом – на сайте юзеры общаются с двумя анонимными LLM одновременно и голосуют за лучшую из этих двух. Рейтинг определяется по системе ELO (её также используют для определения рейтинга игроков в шахматах).

Недавней DBRX на лидерборде арены ещё нет из-за недостаточного количества голосов, но это можно исправить – любой может зайти на арену и потестировать пару LLM-ок вслепую.

Почитать подробнее про Арену:
- Блогпост
- Статья
- Лидерборд

#ликбез
@ai_newz

BY эйай ньюз




Share with your friend now:
group-telegram.com/ai_newz/2528

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Anastasia Vlasova/Getty Images In a message on his Telegram channel recently recounting the episode, Durov wrote: "I lost my company and my home, but would do it again – without hesitation." These entities are reportedly operating nine Telegram channels with more than five million subscribers to whom they were making recommendations on selected listed scrips. Such recommendations induced the investors to deal in the said scrips, thereby creating artificial volume and price rise. Since its launch in 2013, Telegram has grown from a simple messaging app to a broadcast network. Its user base isn’t as vast as WhatsApp’s, and its broadcast platform is a fraction the size of Twitter, but it’s nonetheless showing its use. While Telegram has been embroiled in controversy for much of its life, it has become a vital source of communication during the invasion of Ukraine. But, if all of this is new to you, let us explain, dear friends, what on Earth a Telegram is meant to be, and why you should, or should not, need to care. Unlike Silicon Valley giants such as Facebook and Twitter, which run very public anti-disinformation programs, Brooking said: "Telegram is famously lax or absent in its content moderation policy."
from ye


Telegram эйай ньюз
FROM American