Telegram Group & Telegram Channel
И конечно же хочу поделиться итогами по LLM Arena!
Прежде чем начну, расскажу о том, как же пришла в голову идея создать арену.

Последние 8 лет я плотно занимаюсь данными, и их просто обожаю (думаю, по названию канала это и так понятно😀). Еще в 2018 году, когда выигрывал хакатоны, я усвоил, что без хорошей валидации нереально строить ИИ продукт. Если тест сета нет - то ты как слепой котенок: что-то улучшаешь, файтюнишь. А стало ли лучше - непонятно.

И даже когда мой основной бизнес стал сбором, разметкой и модерацией данных для обучения ИИ, оценка качества ML алгоритмов всегда оставалась любимой задачей.

Поэтому, когда новые LLMки начали появляться как грибы после дождя, я понял, что с одной стороны, у пользователей есть большая потребность понимать, как LLM соотносятся по качеству между собой. А с другой, что у меня есть экспертиза, команда, и понимание, как сделать качественный и хороший бенчмарк.

Почему мы пошли по пути LMSYS Chatbot Arena
На это было несколько причин:
1. Уже была MERA. Летом я познакомился с Аленой Феногеновой, понял, что у нее сильная команда, хорошие бюджеты, пиар, и посчитал, что делать еще один тестовый бенчмарк сейчас нет необходимости.
2. С 2018 года я плотно занимаюсь краудсорсингом, был сертифицированным партнером Толоки, преподавателем крауда в ВШЭ и ШАДе. Так что нагонять кучу людей для сбора оценок, выявлять фродеров, управлять толпой - это то, что я люблю и умею.
3. Было видно, что помимо бенчмарков в виде теста, разработчикам нужны бенчи на основе человеческого фидбека
4. Весной за рубежом LMSYS хайповала, казалось, что это самый популярный бенчмарк

А так как российским LLM моделям трудно попасть на зарубежную арену, мы запустили свою llmarena.ru 🎉

Чего добились за эти полгода:
• Добавили на лидерборд 44 модели
• Выстроили репутацию, что даже ЦБ о нас пишет
• Получили огромную огласку в СМИ
• Запустили мини-app LLM Arena в Telegram
Опубликовали на Habr более 25 статей об оценке RAG и LLM моделей
• В рамках llmarena.team пошли в заказную разработку, оценку LLM и RAG систем, Red Teaming LLM, нащупали маркет фит, получили первую выручку
• Познакомились с кучей интересных людей, занимающихся развитием ЛЛМ в РФ
• Сплотились в дружную команду из 8 человек
• Собрали более 50 000 оценок от юзеров
• Наш доклад "Почему бенчмарки лгут?" выиграл номинацию “лучший доклад техно-трека” на конференции conversations

Как и в AI Роман, в следующем году нашу команду ждут новые вызовы и свершения. Поэтому подписывайтесь и следите за нашими достижениями!



group-telegram.com/llm_arena/19
Create:
Last Update:

И конечно же хочу поделиться итогами по LLM Arena!
Прежде чем начну, расскажу о том, как же пришла в голову идея создать арену.

Последние 8 лет я плотно занимаюсь данными, и их просто обожаю (думаю, по названию канала это и так понятно😀). Еще в 2018 году, когда выигрывал хакатоны, я усвоил, что без хорошей валидации нереально строить ИИ продукт. Если тест сета нет - то ты как слепой котенок: что-то улучшаешь, файтюнишь. А стало ли лучше - непонятно.

И даже когда мой основной бизнес стал сбором, разметкой и модерацией данных для обучения ИИ, оценка качества ML алгоритмов всегда оставалась любимой задачей.

Поэтому, когда новые LLMки начали появляться как грибы после дождя, я понял, что с одной стороны, у пользователей есть большая потребность понимать, как LLM соотносятся по качеству между собой. А с другой, что у меня есть экспертиза, команда, и понимание, как сделать качественный и хороший бенчмарк.

Почему мы пошли по пути LMSYS Chatbot Arena
На это было несколько причин:
1. Уже была MERA. Летом я познакомился с Аленой Феногеновой, понял, что у нее сильная команда, хорошие бюджеты, пиар, и посчитал, что делать еще один тестовый бенчмарк сейчас нет необходимости.
2. С 2018 года я плотно занимаюсь краудсорсингом, был сертифицированным партнером Толоки, преподавателем крауда в ВШЭ и ШАДе. Так что нагонять кучу людей для сбора оценок, выявлять фродеров, управлять толпой - это то, что я люблю и умею.
3. Было видно, что помимо бенчмарков в виде теста, разработчикам нужны бенчи на основе человеческого фидбека
4. Весной за рубежом LMSYS хайповала, казалось, что это самый популярный бенчмарк

А так как российским LLM моделям трудно попасть на зарубежную арену, мы запустили свою llmarena.ru 🎉

Чего добились за эти полгода:
• Добавили на лидерборд 44 модели
• Выстроили репутацию, что даже ЦБ о нас пишет
• Получили огромную огласку в СМИ
• Запустили мини-app LLM Arena в Telegram
Опубликовали на Habr более 25 статей об оценке RAG и LLM моделей
• В рамках llmarena.team пошли в заказную разработку, оценку LLM и RAG систем, Red Teaming LLM, нащупали маркет фит, получили первую выручку
• Познакомились с кучей интересных людей, занимающихся развитием ЛЛМ в РФ
• Сплотились в дружную команду из 8 человек
• Собрали более 50 000 оценок от юзеров
• Наш доклад "Почему бенчмарки лгут?" выиграл номинацию “лучший доклад техно-трека” на конференции conversations

Как и в AI Роман, в следующем году нашу команду ждут новые вызовы и свершения. Поэтому подписывайтесь и следите за нашими достижениями!

BY LLM Arena


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/llm_arena/19

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"The inflation fire was already hot and now with war-driven inflation added to the mix, it will grow even hotter, setting off a scramble by the world’s central banks to pull back their stimulus earlier than expected," Chris Rupkey, chief economist at FWDBONDS, wrote in an email. "A spike in inflation rates has preceded economic recessions historically and this time prices have soared to levels that once again pose a threat to growth." Crude oil prices edged higher after tumbling on Thursday, when U.S. West Texas intermediate slid back below $110 per barrel after topping as much as $130 a barrel in recent sessions. Still, gas prices at the pump rose to fresh highs. Since its launch in 2013, Telegram has grown from a simple messaging app to a broadcast network. Its user base isn’t as vast as WhatsApp’s, and its broadcast platform is a fraction the size of Twitter, but it’s nonetheless showing its use. While Telegram has been embroiled in controversy for much of its life, it has become a vital source of communication during the invasion of Ukraine. But, if all of this is new to you, let us explain, dear friends, what on Earth a Telegram is meant to be, and why you should, or should not, need to care. Telegram users are able to send files of any type up to 2GB each and access them from any device, with no limit on cloud storage, which has made downloading files more popular on the platform. "There is a significant risk of insider threat or hacking of Telegram systems that could expose all of these chats to the Russian government," said Eva Galperin with the Electronic Frontier Foundation, which has called for Telegram to improve its privacy practices.
from jp


Telegram LLM Arena
FROM American