Telegram Group & Telegram Channel
Лидерборд LMSYS Chatbot Arena обновился второй раз за неделю!

Добавили модели Claude 3, и ещё во вторник появились модели Mistral Large / Mistral Next.

Для тех, кто не в курсе, Chatbot Arena — это место, где модели вслепую сраниваются реальными людьми. Вы заходите на платформу, пишете запрос, видите два ответа и выбираете лучший. Чем чаще выбираются результаты одной модели, тем выше она в рейтинге. Финальная оценка — рейтинг Эло (как в шахматах). Тут собраны десятки тысяч голосов, поэтому рейтинг достаточно честный и хорошо отражает некоторое абстрактное реальное качество модели.

Долгое время GPT-4-Turbo была в самом топе и в недосягаемости, со значимым отрывом.
1) Claude 3 Opus почти догнала: 1233+-8 очков против 1251+-5 у свежих GPT-4-Turbo
2) Claude 3 Sonet, версия поменьше и подешевле, обгоняет майскую GPT-4, а также Mistral Large
3) свежие Mistral Large / Mistral Medium сидят на 8-9 строчках рейтинга
4) самой лучшей опенсурсной моделью является Qwen1.5-72B-Chat, китайская модель, умеющая в разные языки

В целом, Claude 3 Sonet вышла неплохой — стоит сильно дешевле GPT-4/Turbo, но по ответам не так плоха ($3/$15 за миллион токенов Sonnet против $10/$30 у Trubo, а GPT-4 вообще $60/$120, если брать контекст 32k) . Осталось посмотреть более внимательно на даунстрим задачи, чтобы составить полную картинку.

За наводку спасибо автору @epsiloncorrect



group-telegram.com/seeallochnaya/1147
Create:
Last Update:

Лидерборд LMSYS Chatbot Arena обновился второй раз за неделю!

Добавили модели Claude 3, и ещё во вторник появились модели Mistral Large / Mistral Next.

Для тех, кто не в курсе, Chatbot Arena — это место, где модели вслепую сраниваются реальными людьми. Вы заходите на платформу, пишете запрос, видите два ответа и выбираете лучший. Чем чаще выбираются результаты одной модели, тем выше она в рейтинге. Финальная оценка — рейтинг Эло (как в шахматах). Тут собраны десятки тысяч голосов, поэтому рейтинг достаточно честный и хорошо отражает некоторое абстрактное реальное качество модели.

Долгое время GPT-4-Turbo была в самом топе и в недосягаемости, со значимым отрывом.
1) Claude 3 Opus почти догнала: 1233+-8 очков против 1251+-5 у свежих GPT-4-Turbo
2) Claude 3 Sonet, версия поменьше и подешевле, обгоняет майскую GPT-4, а также Mistral Large
3) свежие Mistral Large / Mistral Medium сидят на 8-9 строчках рейтинга
4) самой лучшей опенсурсной моделью является Qwen1.5-72B-Chat, китайская модель, умеющая в разные языки

В целом, Claude 3 Sonet вышла неплохой — стоит сильно дешевле GPT-4/Turbo, но по ответам не так плоха ($3/$15 за миллион токенов Sonnet против $10/$30 у Trubo, а GPT-4 вообще $60/$120, если брать контекст 32k) . Осталось посмотреть более внимательно на даунстрим задачи, чтобы составить полную картинку.

За наводку спасибо автору @epsiloncorrect

BY Сиолошная




Share with your friend now:
group-telegram.com/seeallochnaya/1147

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Right now the digital security needs of Russians and Ukrainians are very different, and they lead to very different caveats about how to mitigate the risks associated with using Telegram. For Ukrainians in Ukraine, whose physical safety is at risk because they are in a war zone, digital security is probably not their highest priority. They may value access to news and communication with their loved ones over making sure that all of their communications are encrypted in such a manner that they are indecipherable to Telegram, its employees, or governments with court orders. Just days after Russia invaded Ukraine, Durov wrote that Telegram was "increasingly becoming a source of unverified information," and he worried about the app being used to "incite ethnic hatred." Some privacy experts say Telegram is not secure enough "This time we received the coordinates of enemy vehicles marked 'V' in Kyiv region," it added. These administrators had built substantial positions in these scrips prior to the circulation of recommendations and offloaded their positions subsequent to rise in price of these scrips, making significant profits at the expense of unsuspecting investors, Sebi noted.
from fr


Telegram Сиолошная
FROM American