Notice: file_put_contents(): Write of 9797 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50
эйай ньюз | Telegram Webview: ai_newz/2528 -
Telegram Group & Telegram Channel
Chatbot Arena: В топе LLM арены в этом месяце заметные перестановки

* GPT-4 уступила своё лидерство Claude 3 Opus
* Старые версии GPT-4 проигрывают даже Claude 3 Haiku - а он ведь дешевле GPT-3.5 (!)
* Command R от Cohere прошла в топ 10, при том что у неё всего 35 миллиарда параметров (а ещё её можно скачать)

Что за Chatbot Arena?
Chatbot Arena – это пожалуй один из самых внушающих доверие рейтингов LLM, т.к. там тестируют модели в "полевых условиях" на случайных запросах от пользователей. За место в рейтинге на Chatbot Arena модели соревнуются путём дуэлей друг с другом – на сайте юзеры общаются с двумя анонимными LLM одновременно и голосуют за лучшую из этих двух. Рейтинг определяется по системе ELO (её также используют для определения рейтинга игроков в шахматах).

Недавней DBRX на лидерборде арены ещё нет из-за недостаточного количества голосов, но это можно исправить – любой может зайти на арену и потестировать пару LLM-ок вслепую.

Почитать подробнее про Арену:
- Блогпост
- Статья
- Лидерборд

#ликбез
@ai_newz



group-telegram.com/ai_newz/2528
Create:
Last Update:

Chatbot Arena: В топе LLM арены в этом месяце заметные перестановки

* GPT-4 уступила своё лидерство Claude 3 Opus
* Старые версии GPT-4 проигрывают даже Claude 3 Haiku - а он ведь дешевле GPT-3.5 (!)
* Command R от Cohere прошла в топ 10, при том что у неё всего 35 миллиарда параметров (а ещё её можно скачать)

Что за Chatbot Arena?
Chatbot Arena – это пожалуй один из самых внушающих доверие рейтингов LLM, т.к. там тестируют модели в "полевых условиях" на случайных запросах от пользователей. За место в рейтинге на Chatbot Arena модели соревнуются путём дуэлей друг с другом – на сайте юзеры общаются с двумя анонимными LLM одновременно и голосуют за лучшую из этих двух. Рейтинг определяется по системе ELO (её также используют для определения рейтинга игроков в шахматах).

Недавней DBRX на лидерборде арены ещё нет из-за недостаточного количества голосов, но это можно исправить – любой может зайти на арену и потестировать пару LLM-ок вслепую.

Почитать подробнее про Арену:
- Блогпост
- Статья
- Лидерборд

#ликбез
@ai_newz

BY эйай ньюз




Share with your friend now:
group-telegram.com/ai_newz/2528

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The fake Zelenskiy account reached 20,000 followers on Telegram before it was shut down, a remedial action that experts say is all too rare. However, the perpetrators of such frauds are now adopting new methods and technologies to defraud the investors. On December 23rd, 2020, Pavel Durov posted to his channel that the company would need to start generating revenue. In early 2021, he added that any advertising on the platform would not use user data for targeting, and that it would be focused on “large one-to-many channels.” He pledged that ads would be “non-intrusive” and that most users would simply not notice any change. At this point, however, Durov had already been working on Telegram with his brother, and further planned a mobile-first social network with an explicit focus on anti-censorship. Later in April, he told TechCrunch that he had left Russia and had “no plans to go back,” saying that the nation was currently “incompatible with internet business at the moment.” He added later that he was looking for a country that matched his libertarian ideals to base his next startup. Oleksandra Matviichuk, a Kyiv-based lawyer and head of the Center for Civil Liberties, called Durov’s position "very weak," and urged concrete improvements.
from tr


Telegram эйай ньюз
FROM American