Notice: file_put_contents(): Write of 1605 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 8192 of 9797 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
эйай ньюз | Telegram Webview: ai_newz/2528 -
Telegram Group & Telegram Channel
Chatbot Arena: В топе LLM арены в этом месяце заметные перестановки

* GPT-4 уступила своё лидерство Claude 3 Opus
* Старые версии GPT-4 проигрывают даже Claude 3 Haiku - а он ведь дешевле GPT-3.5 (!)
* Command R от Cohere прошла в топ 10, при том что у неё всего 35 миллиарда параметров (а ещё её можно скачать)

Что за Chatbot Arena?
Chatbot Arena – это пожалуй один из самых внушающих доверие рейтингов LLM, т.к. там тестируют модели в "полевых условиях" на случайных запросах от пользователей. За место в рейтинге на Chatbot Arena модели соревнуются путём дуэлей друг с другом – на сайте юзеры общаются с двумя анонимными LLM одновременно и голосуют за лучшую из этих двух. Рейтинг определяется по системе ELO (её также используют для определения рейтинга игроков в шахматах).

Недавней DBRX на лидерборде арены ещё нет из-за недостаточного количества голосов, но это можно исправить – любой может зайти на арену и потестировать пару LLM-ок вслепую.

Почитать подробнее про Арену:
- Блогпост
- Статья
- Лидерборд

#ликбез
@ai_newz



group-telegram.com/ai_newz/2528
Create:
Last Update:

Chatbot Arena: В топе LLM арены в этом месяце заметные перестановки

* GPT-4 уступила своё лидерство Claude 3 Opus
* Старые версии GPT-4 проигрывают даже Claude 3 Haiku - а он ведь дешевле GPT-3.5 (!)
* Command R от Cohere прошла в топ 10, при том что у неё всего 35 миллиарда параметров (а ещё её можно скачать)

Что за Chatbot Arena?
Chatbot Arena – это пожалуй один из самых внушающих доверие рейтингов LLM, т.к. там тестируют модели в "полевых условиях" на случайных запросах от пользователей. За место в рейтинге на Chatbot Arena модели соревнуются путём дуэлей друг с другом – на сайте юзеры общаются с двумя анонимными LLM одновременно и голосуют за лучшую из этих двух. Рейтинг определяется по системе ELO (её также используют для определения рейтинга игроков в шахматах).

Недавней DBRX на лидерборде арены ещё нет из-за недостаточного количества голосов, но это можно исправить – любой может зайти на арену и потестировать пару LLM-ок вслепую.

Почитать подробнее про Арену:
- Блогпост
- Статья
- Лидерборд

#ликбез
@ai_newz

BY эйай ньюз




Share with your friend now:
group-telegram.com/ai_newz/2528

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

False news often spreads via public groups, or chats, with potentially fatal effects. But because group chats and the channel features are not end-to-end encrypted, Galperin said user privacy is potentially under threat. This provided opportunity to their linked entities to offload their shares at higher prices and make significant profits at the cost of unsuspecting retail investors. The Russian invasion of Ukraine has been a driving force in markets for the past few weeks. Friday’s performance was part of a larger shift. For the week, the Dow, S&P 500 and Nasdaq fell 2%, 2.9%, and 3.5%, respectively.
from ye


Telegram эйай ньюз
FROM American