Telegram Group & Telegram Channel
И конечно же хочу поделиться итогами по LLM Arena!
Прежде чем начну, расскажу о том, как же пришла в голову идея создать арену.

Последние 8 лет я плотно занимаюсь данными, и их просто обожаю (думаю, по названию канала это и так понятно😀). Еще в 2018 году, когда выигрывал хакатоны, я усвоил, что без хорошей валидации нереально строить ИИ продукт. Если тест сета нет - то ты как слепой котенок: что-то улучшаешь, файтюнишь. А стало ли лучше - непонятно.

И даже когда мой основной бизнес стал сбором, разметкой и модерацией данных для обучения ИИ, оценка качества ML алгоритмов всегда оставалась любимой задачей.

Поэтому, когда новые LLMки начали появляться как грибы после дождя, я понял, что с одной стороны, у пользователей есть большая потребность понимать, как LLM соотносятся по качеству между собой. А с другой, что у меня есть экспертиза, команда, и понимание, как сделать качественный и хороший бенчмарк.

Почему мы пошли по пути LMSYS Chatbot Arena
На это было несколько причин:
1. Уже была MERA. Летом я познакомился с Аленой Феногеновой, понял, что у нее сильная команда, хорошие бюджеты, пиар, и посчитал, что делать еще один тестовый бенчмарк сейчас нет необходимости.
2. С 2018 года я плотно занимаюсь краудсорсингом, был сертифицированным партнером Толоки, преподавателем крауда в ВШЭ и ШАДе. Так что нагонять кучу людей для сбора оценок, выявлять фродеров, управлять толпой - это то, что я люблю и умею.
3. Было видно, что помимо бенчмарков в виде теста, разработчикам нужны бенчи на основе человеческого фидбека
4. Весной за рубежом LMSYS хайповала, казалось, что это самый популярный бенчмарк

А так как российским LLM моделям трудно попасть на зарубежную арену, мы запустили свою llmarena.ru 🎉

Чего добились за эти полгода:
• Добавили на лидерборд 44 модели
• Выстроили репутацию, что даже ЦБ о нас пишет
• Получили огромную огласку в СМИ
• Запустили мини-app LLM Arena в Telegram
Опубликовали на Habr более 25 статей об оценке RAG и LLM моделей
• В рамках llmarena.team пошли в заказную разработку, оценку LLM и RAG систем, Red Teaming LLM, нащупали маркет фит, получили первую выручку
• Познакомились с кучей интересных людей, занимающихся развитием ЛЛМ в РФ
• Сплотились в дружную команду из 8 человек
• Собрали более 50 000 оценок от юзеров
• Наш доклад "Почему бенчмарки лгут?" выиграл номинацию “лучший доклад техно-трека” на конференции conversations

Как и в AI Роман, в следующем году нашу команду ждут новые вызовы и свершения. Поэтому подписывайтесь и следите за нашими достижениями!



group-telegram.com/llm_arena/19
Create:
Last Update:

И конечно же хочу поделиться итогами по LLM Arena!
Прежде чем начну, расскажу о том, как же пришла в голову идея создать арену.

Последние 8 лет я плотно занимаюсь данными, и их просто обожаю (думаю, по названию канала это и так понятно😀). Еще в 2018 году, когда выигрывал хакатоны, я усвоил, что без хорошей валидации нереально строить ИИ продукт. Если тест сета нет - то ты как слепой котенок: что-то улучшаешь, файтюнишь. А стало ли лучше - непонятно.

И даже когда мой основной бизнес стал сбором, разметкой и модерацией данных для обучения ИИ, оценка качества ML алгоритмов всегда оставалась любимой задачей.

Поэтому, когда новые LLMки начали появляться как грибы после дождя, я понял, что с одной стороны, у пользователей есть большая потребность понимать, как LLM соотносятся по качеству между собой. А с другой, что у меня есть экспертиза, команда, и понимание, как сделать качественный и хороший бенчмарк.

Почему мы пошли по пути LMSYS Chatbot Arena
На это было несколько причин:
1. Уже была MERA. Летом я познакомился с Аленой Феногеновой, понял, что у нее сильная команда, хорошие бюджеты, пиар, и посчитал, что делать еще один тестовый бенчмарк сейчас нет необходимости.
2. С 2018 года я плотно занимаюсь краудсорсингом, был сертифицированным партнером Толоки, преподавателем крауда в ВШЭ и ШАДе. Так что нагонять кучу людей для сбора оценок, выявлять фродеров, управлять толпой - это то, что я люблю и умею.
3. Было видно, что помимо бенчмарков в виде теста, разработчикам нужны бенчи на основе человеческого фидбека
4. Весной за рубежом LMSYS хайповала, казалось, что это самый популярный бенчмарк

А так как российским LLM моделям трудно попасть на зарубежную арену, мы запустили свою llmarena.ru 🎉

Чего добились за эти полгода:
• Добавили на лидерборд 44 модели
• Выстроили репутацию, что даже ЦБ о нас пишет
• Получили огромную огласку в СМИ
• Запустили мини-app LLM Arena в Telegram
Опубликовали на Habr более 25 статей об оценке RAG и LLM моделей
• В рамках llmarena.team пошли в заказную разработку, оценку LLM и RAG систем, Red Teaming LLM, нащупали маркет фит, получили первую выручку
• Познакомились с кучей интересных людей, занимающихся развитием ЛЛМ в РФ
• Сплотились в дружную команду из 8 человек
• Собрали более 50 000 оценок от юзеров
• Наш доклад "Почему бенчмарки лгут?" выиграл номинацию “лучший доклад техно-трека” на конференции conversations

Как и в AI Роман, в следующем году нашу команду ждут новые вызовы и свершения. Поэтому подписывайтесь и следите за нашими достижениями!

BY LLM Arena


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/llm_arena/19

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The channel appears to be part of the broader information war that has developed following Russia's invasion of Ukraine. The Kremlin has paid Russian TikTok influencers to push propaganda, according to a Vice News investigation, while ProPublica found that fake Russian fact check videos had been viewed over a million times on Telegram. Telegram was founded in 2013 by two Russian brothers, Nikolai and Pavel Durov. Telegram, which does little policing of its content, has also became a hub for Russian propaganda and misinformation. Many pro-Kremlin channels have become popular, alongside accounts of journalists and other independent observers. "Someone posing as a Ukrainian citizen just joins the chat and starts spreading misinformation, or gathers data, like the location of shelters," Tsekhanovska said, noting how false messages have urged Ukrainians to turn off their phones at a specific time of night, citing cybersafety. Russian President Vladimir Putin launched Russia's invasion of Ukraine in the early-morning hours of February 24, targeting several key cities with military strikes.
from us


Telegram LLM Arena
FROM American