Telegram Group & Telegram Channel
Лидерборд LMSYS Chatbot Arena обновился второй раз за неделю!

Добавили модели Claude 3, и ещё во вторник появились модели Mistral Large / Mistral Next.

Для тех, кто не в курсе, Chatbot Arena — это место, где модели вслепую сраниваются реальными людьми. Вы заходите на платформу, пишете запрос, видите два ответа и выбираете лучший. Чем чаще выбираются результаты одной модели, тем выше она в рейтинге. Финальная оценка — рейтинг Эло (как в шахматах). Тут собраны десятки тысяч голосов, поэтому рейтинг достаточно честный и хорошо отражает некоторое абстрактное реальное качество модели.

Долгое время GPT-4-Turbo была в самом топе и в недосягаемости, со значимым отрывом.
1) Claude 3 Opus почти догнала: 1233+-8 очков против 1251+-5 у свежих GPT-4-Turbo
2) Claude 3 Sonet, версия поменьше и подешевле, обгоняет майскую GPT-4, а также Mistral Large
3) свежие Mistral Large / Mistral Medium сидят на 8-9 строчках рейтинга
4) самой лучшей опенсурсной моделью является Qwen1.5-72B-Chat, китайская модель, умеющая в разные языки

В целом, Claude 3 Sonet вышла неплохой — стоит сильно дешевле GPT-4/Turbo, но по ответам не так плоха ($3/$15 за миллион токенов Sonnet против $10/$30 у Trubo, а GPT-4 вообще $60/$120, если брать контекст 32k) . Осталось посмотреть более внимательно на даунстрим задачи, чтобы составить полную картинку.

За наводку спасибо автору @epsiloncorrect



group-telegram.com/seeallochnaya/1147
Create:
Last Update:

Лидерборд LMSYS Chatbot Arena обновился второй раз за неделю!

Добавили модели Claude 3, и ещё во вторник появились модели Mistral Large / Mistral Next.

Для тех, кто не в курсе, Chatbot Arena — это место, где модели вслепую сраниваются реальными людьми. Вы заходите на платформу, пишете запрос, видите два ответа и выбираете лучший. Чем чаще выбираются результаты одной модели, тем выше она в рейтинге. Финальная оценка — рейтинг Эло (как в шахматах). Тут собраны десятки тысяч голосов, поэтому рейтинг достаточно честный и хорошо отражает некоторое абстрактное реальное качество модели.

Долгое время GPT-4-Turbo была в самом топе и в недосягаемости, со значимым отрывом.
1) Claude 3 Opus почти догнала: 1233+-8 очков против 1251+-5 у свежих GPT-4-Turbo
2) Claude 3 Sonet, версия поменьше и подешевле, обгоняет майскую GPT-4, а также Mistral Large
3) свежие Mistral Large / Mistral Medium сидят на 8-9 строчках рейтинга
4) самой лучшей опенсурсной моделью является Qwen1.5-72B-Chat, китайская модель, умеющая в разные языки

В целом, Claude 3 Sonet вышла неплохой — стоит сильно дешевле GPT-4/Turbo, но по ответам не так плоха ($3/$15 за миллион токенов Sonnet против $10/$30 у Trubo, а GPT-4 вообще $60/$120, если брать контекст 32k) . Осталось посмотреть более внимательно на даунстрим задачи, чтобы составить полную картинку.

За наводку спасибо автору @epsiloncorrect

BY Сиолошная




Share with your friend now:
group-telegram.com/seeallochnaya/1147

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The S&P 500 fell 1.3% to 4,204.36, and the Dow Jones Industrial Average was down 0.7% to 32,943.33. The Dow posted a fifth straight weekly loss — its longest losing streak since 2019. The Nasdaq Composite tumbled 2.2% to 12,843.81. Though all three indexes opened in the green, stocks took a turn after a new report showed U.S. consumer sentiment deteriorated more than expected in early March as consumers' inflation expectations soared to the highest since 1981. But Telegram says people want to keep their chat history when they get a new phone, and they like having a data backup that will sync their chats across multiple devices. And that is why they let people choose whether they want their messages to be encrypted or not. When not turned on, though, chats are stored on Telegram's services, which are scattered throughout the world. But it has "disclosed 0 bytes of user data to third parties, including governments," Telegram states on its website. Continuing its crackdown against entities allegedly involved in a front-running scam using messaging app Telegram, Sebi on Thursday carried out search and seizure operations at the premises of eight entities in multiple locations across the country. Stocks dropped on Friday afternoon, as gains made earlier in the day on hopes for diplomatic progress between Russia and Ukraine turned to losses. Technology stocks were hit particularly hard by higher bond yields. But because group chats and the channel features are not end-to-end encrypted, Galperin said user privacy is potentially under threat.
from sg


Telegram Сиолошная
FROM American