Telegram Group & Telegram Channel
И конечно же хочу поделиться итогами по LLM Arena!
Прежде чем начну, расскажу о том, как же пришла в голову идея создать арену.

Последние 8 лет я плотно занимаюсь данными, и их просто обожаю (думаю, по названию канала это и так понятно😀). Еще в 2018 году, когда выигрывал хакатоны, я усвоил, что без хорошей валидации нереально строить ИИ продукт. Если тест сета нет - то ты как слепой котенок: что-то улучшаешь, файтюнишь. А стало ли лучше - непонятно.

И даже когда мой основной бизнес стал сбором, разметкой и модерацией данных для обучения ИИ, оценка качества ML алгоритмов всегда оставалась любимой задачей.

Поэтому, когда новые LLMки начали появляться как грибы после дождя, я понял, что с одной стороны, у пользователей есть большая потребность понимать, как LLM соотносятся по качеству между собой. А с другой, что у меня есть экспертиза, команда, и понимание, как сделать качественный и хороший бенчмарк.

Почему мы пошли по пути LMSYS Chatbot Arena
На это было несколько причин:
1. Уже была MERA. Летом я познакомился с Аленой Феногеновой, понял, что у нее сильная команда, хорошие бюджеты, пиар, и посчитал, что делать еще один тестовый бенчмарк сейчас нет необходимости.
2. С 2018 года я плотно занимаюсь краудсорсингом, был сертифицированным партнером Толоки, преподавателем крауда в ВШЭ и ШАДе. Так что нагонять кучу людей для сбора оценок, выявлять фродеров, управлять толпой - это то, что я люблю и умею.
3. Было видно, что помимо бенчмарков в виде теста, разработчикам нужны бенчи на основе человеческого фидбека
4. Весной за рубежом LMSYS хайповала, казалось, что это самый популярный бенчмарк

А так как российским LLM моделям трудно попасть на зарубежную арену, мы запустили свою llmarena.ru 🎉

Чего добились за эти полгода:
• Добавили на лидерборд 44 модели
• Выстроили репутацию, что даже ЦБ о нас пишет
• Получили огромную огласку в СМИ
• Запустили мини-app LLM Arena в Telegram
Опубликовали на Habr более 25 статей об оценке RAG и LLM моделей
• В рамках llmarena.team пошли в заказную разработку, оценку LLM и RAG систем, Red Teaming LLM, нащупали маркет фит, получили первую выручку
• Познакомились с кучей интересных людей, занимающихся развитием ЛЛМ в РФ
• Сплотились в дружную команду из 8 человек
• Собрали более 50 000 оценок от юзеров
• Наш доклад "Почему бенчмарки лгут?" выиграл номинацию “лучший доклад техно-трека” на конференции conversations

Как и в AI Роман, в следующем году нашу команду ждут новые вызовы и свершения. Поэтому подписывайтесь и следите за нашими достижениями!



group-telegram.com/Roma_Data/128
Create:
Last Update:

И конечно же хочу поделиться итогами по LLM Arena!
Прежде чем начну, расскажу о том, как же пришла в голову идея создать арену.

Последние 8 лет я плотно занимаюсь данными, и их просто обожаю (думаю, по названию канала это и так понятно😀). Еще в 2018 году, когда выигрывал хакатоны, я усвоил, что без хорошей валидации нереально строить ИИ продукт. Если тест сета нет - то ты как слепой котенок: что-то улучшаешь, файтюнишь. А стало ли лучше - непонятно.

И даже когда мой основной бизнес стал сбором, разметкой и модерацией данных для обучения ИИ, оценка качества ML алгоритмов всегда оставалась любимой задачей.

Поэтому, когда новые LLMки начали появляться как грибы после дождя, я понял, что с одной стороны, у пользователей есть большая потребность понимать, как LLM соотносятся по качеству между собой. А с другой, что у меня есть экспертиза, команда, и понимание, как сделать качественный и хороший бенчмарк.

Почему мы пошли по пути LMSYS Chatbot Arena
На это было несколько причин:
1. Уже была MERA. Летом я познакомился с Аленой Феногеновой, понял, что у нее сильная команда, хорошие бюджеты, пиар, и посчитал, что делать еще один тестовый бенчмарк сейчас нет необходимости.
2. С 2018 года я плотно занимаюсь краудсорсингом, был сертифицированным партнером Толоки, преподавателем крауда в ВШЭ и ШАДе. Так что нагонять кучу людей для сбора оценок, выявлять фродеров, управлять толпой - это то, что я люблю и умею.
3. Было видно, что помимо бенчмарков в виде теста, разработчикам нужны бенчи на основе человеческого фидбека
4. Весной за рубежом LMSYS хайповала, казалось, что это самый популярный бенчмарк

А так как российским LLM моделям трудно попасть на зарубежную арену, мы запустили свою llmarena.ru 🎉

Чего добились за эти полгода:
• Добавили на лидерборд 44 модели
• Выстроили репутацию, что даже ЦБ о нас пишет
• Получили огромную огласку в СМИ
• Запустили мини-app LLM Arena в Telegram
Опубликовали на Habr более 25 статей об оценке RAG и LLM моделей
• В рамках llmarena.team пошли в заказную разработку, оценку LLM и RAG систем, Red Teaming LLM, нащупали маркет фит, получили первую выручку
• Познакомились с кучей интересных людей, занимающихся развитием ЛЛМ в РФ
• Сплотились в дружную команду из 8 человек
• Собрали более 50 000 оценок от юзеров
• Наш доклад "Почему бенчмарки лгут?" выиграл номинацию “лучший доклад техно-трека” на конференции conversations

Как и в AI Роман, в следующем году нашу команду ждут новые вызовы и свершения. Поэтому подписывайтесь и следите за нашими достижениями!

BY Роман с данными


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/Roma_Data/128

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The message was not authentic, with the real Zelenskiy soon denying the claim on his official Telegram channel, but the incident highlighted a major problem: disinformation quickly spreads unchecked on the encrypted app. But the Ukraine Crisis Media Center's Tsekhanovska points out that communications are often down in zones most affected by the war, making this sort of cross-referencing a luxury many cannot afford. Ukrainian forces successfully attacked Russian vehicles in the capital city of Kyiv thanks to a public tip made through the encrypted messaging app Telegram, Ukraine's top law-enforcement agency said on Tuesday. Investors took profits on Friday while they could ahead of the weekend, explained Tom Essaye, founder of Sevens Report Research. Saturday and Sunday could easily bring unfortunate news on the war front—and traders would rather be able to sell any recent winnings at Friday’s earlier prices than wait for a potentially lower price at Monday’s open. In addition, Telegram's architecture limits the ability to slow the spread of false information: the lack of a central public feed, and the fact that comments are easily disabled in channels, reduce the space for public pushback.
from cn


Telegram Роман с данными
FROM American