Telegram Group & Telegram Channel
Лидерборд LMSYS Chatbot Arena обновился второй раз за неделю!

Добавили модели Claude 3, и ещё во вторник появились модели Mistral Large / Mistral Next.

Для тех, кто не в курсе, Chatbot Arena — это место, где модели вслепую сраниваются реальными людьми. Вы заходите на платформу, пишете запрос, видите два ответа и выбираете лучший. Чем чаще выбираются результаты одной модели, тем выше она в рейтинге. Финальная оценка — рейтинг Эло (как в шахматах). Тут собраны десятки тысяч голосов, поэтому рейтинг достаточно честный и хорошо отражает некоторое абстрактное реальное качество модели.

Долгое время GPT-4-Turbo была в самом топе и в недосягаемости, со значимым отрывом.
1) Claude 3 Opus почти догнала: 1233+-8 очков против 1251+-5 у свежих GPT-4-Turbo
2) Claude 3 Sonet, версия поменьше и подешевле, обгоняет майскую GPT-4, а также Mistral Large
3) свежие Mistral Large / Mistral Medium сидят на 8-9 строчках рейтинга
4) самой лучшей опенсурсной моделью является Qwen1.5-72B-Chat, китайская модель, умеющая в разные языки

В целом, Claude 3 Sonet вышла неплохой — стоит сильно дешевле GPT-4/Turbo, но по ответам не так плоха ($3/$15 за миллион токенов Sonnet против $10/$30 у Trubo, а GPT-4 вообще $60/$120, если брать контекст 32k) . Осталось посмотреть более внимательно на даунстрим задачи, чтобы составить полную картинку.

За наводку спасибо автору @epsiloncorrect



group-telegram.com/seeallochnaya/1147
Create:
Last Update:

Лидерборд LMSYS Chatbot Arena обновился второй раз за неделю!

Добавили модели Claude 3, и ещё во вторник появились модели Mistral Large / Mistral Next.

Для тех, кто не в курсе, Chatbot Arena — это место, где модели вслепую сраниваются реальными людьми. Вы заходите на платформу, пишете запрос, видите два ответа и выбираете лучший. Чем чаще выбираются результаты одной модели, тем выше она в рейтинге. Финальная оценка — рейтинг Эло (как в шахматах). Тут собраны десятки тысяч голосов, поэтому рейтинг достаточно честный и хорошо отражает некоторое абстрактное реальное качество модели.

Долгое время GPT-4-Turbo была в самом топе и в недосягаемости, со значимым отрывом.
1) Claude 3 Opus почти догнала: 1233+-8 очков против 1251+-5 у свежих GPT-4-Turbo
2) Claude 3 Sonet, версия поменьше и подешевле, обгоняет майскую GPT-4, а также Mistral Large
3) свежие Mistral Large / Mistral Medium сидят на 8-9 строчках рейтинга
4) самой лучшей опенсурсной моделью является Qwen1.5-72B-Chat, китайская модель, умеющая в разные языки

В целом, Claude 3 Sonet вышла неплохой — стоит сильно дешевле GPT-4/Turbo, но по ответам не так плоха ($3/$15 за миллион токенов Sonnet против $10/$30 у Trubo, а GPT-4 вообще $60/$120, если брать контекст 32k) . Осталось посмотреть более внимательно на даунстрим задачи, чтобы составить полную картинку.

За наводку спасибо автору @epsiloncorrect

BY Сиолошная




Share with your friend now:
group-telegram.com/seeallochnaya/1147

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Additionally, investors are often instructed to deposit monies into personal bank accounts of individuals who claim to represent a legitimate entity, and/or into an unrelated corporate account. To lend credence and to lure unsuspecting victims, perpetrators usually claim that their entity and/or the investment schemes are approved by financial authorities. For Oleksandra Tsekhanovska, head of the Hybrid Warfare Analytical Group at the Kyiv-based Ukraine Crisis Media Center, the effects are both near- and far-reaching. "The inflation fire was already hot and now with war-driven inflation added to the mix, it will grow even hotter, setting off a scramble by the world’s central banks to pull back their stimulus earlier than expected," Chris Rupkey, chief economist at FWDBONDS, wrote in an email. "A spike in inflation rates has preceded economic recessions historically and this time prices have soared to levels that once again pose a threat to growth." A Russian Telegram channel with over 700,000 followers is spreading disinformation about Russia's invasion of Ukraine under the guise of providing "objective information" and fact-checking fake news. Its influence extends beyond the platform, with major Russian publications, government officials, and journalists citing the page's posts. The Securities and Exchange Board of India (Sebi) had carried out a similar exercise in 2017 in a matter related to circulation of messages through WhatsApp.
from us


Telegram Сиолошная
FROM American