llm_arena Telegram Group

Channel created

14:46

Channel photo updated

14:46

Всем привет! Неделя выдалась жаркой на анонсы LLM.

Главное событие на зарубежном направлении: анонс GPT-4o mini. Мы уже добавили ее на llmarena.ru, так что велком тестировать! Чем больше людей пользуются ареной, тем быстрее "прокрашиваются" и сходятся доверительные интервалы оценок. Надеемся, что за неделю наберем достаточное кол-во данных, для объективной оценки.

На российском рынке на этой неделе удивил всех анонс модели T-lite. Удивил тем, что еще недавно Тарнавский (head of ML, AI Тбанк) говорил о том, что не пойдут в open source. Не уверены на 100%, что это моделька от Т-Банка, но на всякий случай добавим ее на llmarena.ru тоже.

И на этой неделе появятся еще пару моделек на арене, поэтому ваши голоса и оценки нам очень нужны!

347 views13:49

LLM Arena

Забавно наблюдать, как практически одновременно все ML паблики запостили новость про выход Llama 3.1. Выделился только Игорь Котенков, рассказав о ней еще за день до официального выхода.

Да, событие легендарное, это огромный прорыв, интересно как мощнейшая опенсорс модель поменяет ход игры на поле боя LLM.

Мы уже добавляем Llama 3.1 в версиях 8B и 70B, 405B на llmarena.ru, и планируем за неделю собрать достаточное кол-во голосов, чтобы обновить лидерборд. Поэтому ваши голоса и оценки нам очень нужны!

376 views21:37

LLM Arena

Всем привет! Врываемся к вам с апдейтами и новостями за последний месяц.

Новость 1: Сегодня мы обновили лидерборд, сузили интервалы для новых моделек Llama 3.1, добавили на него модели T-lite, Gemma 2 27B.

Новость 2: По аналогии с зарубежным LMSYS, мы открываем прием заявок на получение доступа к данным, по которым строится лидерборд. Чтобы вы сами могли изучить на каких данных основывается бенчмарк и детальнее изучить логи каждой из 28 моделей.

Новость 3: Добавили фильтры "crowdsourcing / simple prompts" и "site visitors / medium prompts".
"crowdsourcing / simple prompts" - ответы юзеров с краудсорсинговых платформ. Эта когорта юзеров далека от опытного пользователя LLM, в основном задает информационные вопросы.
"site visitors / medium prompts" - обычные пользователи llmarena.ru с более сложными промптами.

Новость 4: За последний месяц посещаемость сайта увеличилась в 6 раз, цитируемость бенчмарка возросла в разы, о нас написали Коммерсантъ, ITZine, Machinelearning, Tproger, ХАЙТЕК, RSpectr, hi-tech, газета.ru, Хабр, Lenta.ru. Крайне рады что наша работа важна и интересна людям, и очень круто, что появляется комьюнити вокруг бенчмарка.

Если у вас есть вопросы, либо хотите участвовать в развитии бечмарка - вступайте в наш чат.

328 views12:14

LLM Arena

Вчера у зарубежного LMSYS вышли значительные обновления.
Самое главное - внедрение фильтра style control.
В июле возникло много критики и непонимания почему малая модель GPT-4o mini обогнала в рейтинге все большие модели, такие как GPT-4, Claude 3.5 Sonnet и т.д.

Автор канала "эйай ньюз" выдвинул следующую гипотезу: "4o mini просто даёт более детальные ответы относительно быстро. Людям влом всё это всё читать и они голосуют за 4o mini, не особо проверяя корректность".

Вчера LMSYS подтвердил эту гипотезу, выложив статью "Does style matter? Disentangling style and substance in Chatbot Arena”. Краткое содержание на русском доступно тут.

Мы уже в процессе добавления фильтра style control на llmarena.ru, планируем выкатить на следующей неделе! Следите за апдейтами и голосуйте за лучшие модели на нашей платформе!

359 views08:19

LLM Arena

Начинаем сентябрь с супер новостей!

Новость 1: Разделили потоки загрузки арены и лидерборда. Скорость загрузки страницы llmarena.ru выросла в 5 раз (с 7 сек до 1.4 сек). Теперь загружаемся также быстро, как chatgpt.com.

Новость 2: Добавили фильтр “style control", методику расчета взяли из зарубежной LMSYS арены.

Новость 3: Обновили лидерборд, добавили в расчет собранные логи за август.

315 viewsedited 10:13

LLM Arena

Новость 4: Недавно зарубежная lmarena.ai добавила в лидерборд вкладу с бенчмарком Arena-Hard-Auto. Отличие Arena-Hard-Auto от обычной арены в том, что в Arena-Hard ответы моделей оценивает не человек, а одна более сильная модель.

В этом подходе есть и плюсы и минусы:
+ Бенчмарк считается и прогоняется для новых моделей меньше чем за час, это на порядки дешевле и быстрее, чем оценивать людьми.
+ Можно самим собирать корзинку из 500 промптов по которым происходит оценка, балансировать сложные/простые промпты для объективности бенчмарка.
+ Результаты Arena-Hard-Auto коррелируют на 89.1% с оценкой людьми, это довольно хороший показатель.
- Возникает небольшое смещение, так как модели оценщики (LLM-as-a-judge) с большей вероятностью голосуют за свою линейку моделей.
- Корзинка из 500 промптов может быть смещена от выборки вопросов людей, иметь перекосы в определенные тематики, трудно составить объективную корзинку.

Так что, подводя итог: обычная арена и Arena-Hard-Auto - это бенчмарки с разной технологией оценки (люди vs LLM), но с большой корреляцией друг с другом.

Мы идем по пути LMSYS арены, поэтому сделали коллаборацию и добавили на страницу лидерборда российскую Arena-Hard-Auto от наших коллег из Vikhr models.

386 views07:53

LLM Arena

Делимся апдейтами текущей недели:

- Теперь мы есть и на huggingface. Тот же самый лидерборд, что и на llmarena.ru, но на английском языке. Выходим в зарубежное комьюнити.

- Добавили фичу шеринга чатов. При нажатии на "📷Поделиться" у вас будет ссылка с логами вашего диалога, и вы ей можете с кем угодно поделиться!

Чуть больше расскажу, почему решили сделать возможность делиться чатами.
Мы опросили пользователей и заметили, что большое кол-во людей загружают свои рабочие кейсы по использованию LLM и смотрят какая LLM отработала лучше. И уже на основе ответов определяют, какую LLMку стоит использовать. И чтобы вам теперь было проще доказать всем, что нужно юзать именно LLM X, а не Y, загружайте кейсы в "⚔️ Арена (сравнение)" и скидывайте результаты ссылкой своим друзьям/коллегам.

476 views14:20

LLM Arena

Всем привет!

Помимо выкатки новых интересных фич, в наших целях стоит увеличение кол-во юзеров и собираемых оценок.
При более быстром сборе оценок от людей мы сможем быстрее добавлять новые модели, бенчмарк станет еще более устойчивым к шумам и некачественным оценкам.

Поэтому по аналогии с vsegpt.ru, мы вводим программу "Создай туториал!"
Вы создаете видео/текстовый туториал, статью, в которой рассказывается как можно решать какую-либо задачу с помощью llmarena.ru - а с нас денежное вознаграждение. Полные условия программы тут.

А если вам интересно присоединиться к нам в супер команду в качестве маркетолога, пишите в ЛС!

507 views09:29

LLM Arena

Всем привет! Делимся новостями и улучшениями платформы за прошедший месяц!

• Улучшили UX/UI мобильной версии, теперь пользоваться llmarena.ru на много удобнее!
• Прилинковали домен lmarena.ru, теперь на нашу платформу можно заходить и с него
• Добавили по дефолту отображение фильтра “site_visitors/medium_prompts:style control”
• Снова добавили в публичную арену GPT-4о, но уже с лимитами
• Работаем над увеличением кол-ва собираемых оценок:
- Добавили поп-апы с призывом голосовать
- Изменили кнопки, добавив акцент на голосовании
- Снова пробуем часть данных собирать через крауд (прошла попытка провалилась, показав крайне низкое качество оценок)
• Добавили на арену следующие модели:
- Llama 3.2 11B Instruct
- Qwen2.5 72B Instruct
- Cohere: Command R+ (08-2024)
- Google: Gemini Flash 1.5
- Google: Gemini Pro 1.5
- YandexGPT Experimental New
- Vikhrmodels/Vikhr-Nemo-12B-Instruct-R-21-09-24
- RefalMachine/ruadapt_llama3_instruct_lep_saiga_kto_ablitirated

Все еще испытываем дефицит оценок со сложными вопросами/задачами пользователей. Поэтому крайне рады будем вашим голосам на платформе llmarena.ru!

536 viewsedited 07:13

LLM Arena

Вышла YandexGPT 4 Pro. Сразу добавили ее на llmarena.ru.

И только у нас совершенно бесплатно вы можете протестировать и сравнить ее с другими моделями😉

P.S да, приходится писать желтые заголовки, чтобы вы больше голосовали)

696 views14:01

LLM Arena

За 2 недели собрали необходимое кол-во голосов и добавили на лидерборд модели:
- Llama 3.2 11B Instruct
- Qwen2.5 72B Instruct
- Cohere: Command R+ (08-2024)
- Google: Gemini Flash 1.5
- Google: Gemini Pro 1.5
- YandexGPT 4 Pro
- Vikhrmodels/Vikhr-Nemo-12B-Instruct-R-21-09-24
- RefalMachine/ruadapt_llama3_instruct_lep_saiga_kto_ablitirated

Смотрите результаты на llmarena.ru

Выражаем благодарность Love. Death. Transformers. и Vikhr models за помощь в популизации сбора голосов.
P.S: Нам все еще нужны ваши оценки. Чем активнее будете ставить, тем быстрее добавим на лидерборд GigaChat Max.

680 views09:57

LLM Arena

На нас уже Центральный Банк Российской Федерации в своих тендерах ссылается.
Приятное достижение для проекта, которому 4 месяца.

P.S: Голосуйте активнее, чтобы мы уже добавили на лидерборд GigaChat Max.

2.1K views13:20

LLM Arena

Всем привет! За 4 месяца мы достигли суперских результатов:
• О нас написали Коммерсантъ, ITZine, Machinelearning, Tproger, ХАЙТЕК, RSpectr, hi-tech, газета.ru, Хабр, Lenta.ru
• Ежедневно платформой пользуются сотни людей, а месячные посещения измеряются в десятках тысяч
• Даже ЦБ ссылается на нас при публикации тендеров

Сейчас мы расширяемся и ищем продакт-менеджера к нам в команду!

Если кратко, то нужно улучшать платформу, проводить касдевы, давать разрабам задачи на разработку новых фич, растить аудиторию пользователей.
Подробнее о вакансии тут. Не упустите шанс стать частью нашей команды😉
Заинтересовало? Пишите в лс.

535 viewsedited 10:00

LLM Arena

👋 Всем привет! У нас важные новости!

Мы официально запустили мини-app LLM Arena в Telegram.

Теперь вы можете оценивать модели и решать свои задачи с помощью LLM Arena, не выходя из мессенджера.

Как это работает?
1. Открываете мини-аппку по ссылке.
2. Вводите запрос.
3. Получаете два ответа от разных моделей и голосуете за понравившийся.

⚡️ Приложение синхронизировано с основной платформой, так что оценки идут в общий зачёт для бенчмарка. Мы рассчитываем, что это ускорит сбор данных и сделает арену ещё удобнее для пользователей.

Это только начало. В планах добавить статистику, бейджи, рейтинг лучших юзеров по оценкам на платформе.

Друзья, ваши оценки и отзывы важны для развития арены, поэтому ждём ваших голосов — и в Telegram, и на сайте llmarena.ru.

Как вам новый формат?

6.1K views14:50

2024/12/29 14:25:05
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.group-telegram.com/buyppe/webview?embed=1" title="Channel Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>