Telegram Group & Telegram Channel
Chatbot Arena: В топе LLM арены в этом месяце заметные перестановки

* GPT-4 уступила своё лидерство Claude 3 Opus
* Старые версии GPT-4 проигрывают даже Claude 3 Haiku - а он ведь дешевле GPT-3.5 (!)
* Command R от Cohere прошла в топ 10, при том что у неё всего 35 миллиарда параметров (а ещё её можно скачать)

Что за Chatbot Arena?
Chatbot Arena – это пожалуй один из самых внушающих доверие рейтингов LLM, т.к. там тестируют модели в "полевых условиях" на случайных запросах от пользователей. За место в рейтинге на Chatbot Arena модели соревнуются путём дуэлей друг с другом – на сайте юзеры общаются с двумя анонимными LLM одновременно и голосуют за лучшую из этих двух. Рейтинг определяется по системе ELO (её также используют для определения рейтинга игроков в шахматах).

Недавней DBRX на лидерборде арены ещё нет из-за недостаточного количества голосов, но это можно исправить – любой может зайти на арену и потестировать пару LLM-ок вслепую.

Почитать подробнее про Арену:
- Блогпост
- Статья
- Лидерборд

#ликбез
@ai_newz



group-telegram.com/ai_newz/2528
Create:
Last Update:

Chatbot Arena: В топе LLM арены в этом месяце заметные перестановки

* GPT-4 уступила своё лидерство Claude 3 Opus
* Старые версии GPT-4 проигрывают даже Claude 3 Haiku - а он ведь дешевле GPT-3.5 (!)
* Command R от Cohere прошла в топ 10, при том что у неё всего 35 миллиарда параметров (а ещё её можно скачать)

Что за Chatbot Arena?
Chatbot Arena – это пожалуй один из самых внушающих доверие рейтингов LLM, т.к. там тестируют модели в "полевых условиях" на случайных запросах от пользователей. За место в рейтинге на Chatbot Arena модели соревнуются путём дуэлей друг с другом – на сайте юзеры общаются с двумя анонимными LLM одновременно и голосуют за лучшую из этих двух. Рейтинг определяется по системе ELO (её также используют для определения рейтинга игроков в шахматах).

Недавней DBRX на лидерборде арены ещё нет из-за недостаточного количества голосов, но это можно исправить – любой может зайти на арену и потестировать пару LLM-ок вслепую.

Почитать подробнее про Арену:
- Блогпост
- Статья
- Лидерборд

#ликбез
@ai_newz

BY эйай ньюз




Share with your friend now:
group-telegram.com/ai_newz/2528

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram users are able to send files of any type up to 2GB each and access them from any device, with no limit on cloud storage, which has made downloading files more popular on the platform. Telegram has become more interventionist over time, and has steadily increased its efforts to shut down these accounts. But this has also meant that the company has also engaged with lawmakers more generally, although it maintains that it doesn’t do so willingly. For instance, in September 2021, Telegram reportedly blocked a chat bot in support of (Putin critic) Alexei Navalny during Russia’s most recent parliamentary elections. Pavel Durov was quoted at the time saying that the company was obliged to follow a “legitimate” law of the land. He added that as Apple and Google both follow the law, to violate it would give both platforms a reason to boot the messenger from its stores. Just days after Russia invaded Ukraine, Durov wrote that Telegram was "increasingly becoming a source of unverified information," and he worried about the app being used to "incite ethnic hatred." The regulator took order for the search and seizure operation from Judge Purushottam B Jadhav, Sebi Special Judge / Additional Sessions Judge. For example, WhatsApp restricted the number of times a user could forward something, and developed automated systems that detect and flag objectionable content.
from nl


Telegram эйай ньюз
FROM American