vikhrlabs Telegram Group

Vikhr models

Мы дочинили arenahard, сабмиты снова работают как и раньше (спасибо gradio за обновления)

А также добавился gigachat max censored и uncensored. Подозреваю что цензор это мелкая модель сверху которая помимо прочего сильно режет качество генераций.

Версия с цензором где то между mistral nemo и gemma 27b. Версия без цензора на простой корзине(без особого кода, ризонинга и прочего) на уровне 4о.

Крутой рост за полгода, посмотрим что будет дальше.

10.3K views15:19

Vikhr models

💨👁 Vikhr-2-VL-2b-Instruct-experimental

это компактная VLM модель, обученная на переведенном датасете LLAVA-150K, специально доученная для обработки на русском языке. Дообученная модель является эксперементальной и не всегда будет работать ожидаемо (особенно OCR).

Ждем вашего фидбека от использования модели)

HuggingFace
Colab

Коллектив авторов: @LakoMoorDev @mlunderground @nlpwanderer

12.2K views06:02

Vikhr models

Обновилась llmarena.ru

TLDR
Vikhr Nemo - лучшая opensource модель в своем классе!

9.4K views08:33

Vikhr models

Forwarded from NLP семинар, ЛЕЯ (ВШЭ СПб)

19 ноября в 18:30 у нас выступит команда Vikhr models c докладом:

“Как мы русифицировали языковые модели и пришли к лучшей в классе открытой модели на русском”

Ссылка на видеовстречу: https://telemost.yandex.ru/j/89085873905223

1.4K views12:53

Vikhr models

Постер нашей статьи на EMNLP.

Самая статья для тех кто не читал.

9.4K viewsedited 16:24

Vikhr models

Forwarded from NLP семинар, ЛЕЯ (ВШЭ СПб)

1.4K views14:45

Vikhr models

К сожалению произошла техническая накладка и не все смогли зайти. Выкладываем слайды и запись лекции.

Комментарии к посту отключены, старые удалились

YouTube
Slides

9.8K viewsedited 17:50

Vikhr models

По истории с мерой

- В ранних экспах мы использовали паблик часть меры(которая выложена на хф), она же уехала в статью. На это обратили внимание в июне, я посмотрел и отложил в долгий ящик, а потом забыл пересчитать перед подачей.
- На приватной части мера наши текущие модели не будут SOTA, мы учили модели на сильно другие задачи.
- Из статьи удалены упоминания Мера, Альянса ИИ, Сбердевайсов и связанные бенчмарки.
- Мы использовали старую версию меры(январь 2024)

2.7K viewsedited 09:52

Vikhr models

По arena bench

- хф слегка в очередной раз обновился и лб криво обновился(слетели Гиги, вихри, ruadapt)
- мы откатили на 17d ago версию, последние сабмиты(сайга новая, ruadapt qwen и ещё что то - пересчитываются)

2.4K views10:26

Vikhr models

Forwarded from MTS AI

🔓 Открываем код: Cotype Nano

Представляем Cotype Nano – открытую большую языковую модель, которая создана для решения бизнес-задач на русском языке. Модель работает локально на персональных устройствах и отлично подходит для разработки чат-ботов и виртуальных помощников.

Что умеет:
🔴Обрабатывать большие объемы данных — до 32,000 токенов (около 45 страниц текста) за раз
🔴Создавать контент и выполнять быстрый и точный перевод между русским и английским языками
🔴Анализировать и классифицировать данные для улучшения клиентского сервиса

➡

Как устроена:
Модель основана на архитектуре трансформера Qwen 2.5, содержит 1,5 млрд параметров и совместима с популярными фреймворками: VLLM, OpenVINO и Hugging Face.

➡

По бенчмаркам Ru Arena Hard Cotype Nano лидирует в своем классе (30.2). Доступна бесплатно, в том числе для коммерческого использования.

➡Узнать больше и скачать модель можно тут.

💻 Подробные технические характеристики — на Хабре.

Please open Telegram to view this post

VIEW IN TELEGRAM

2.1K views11:37

Vikhr models

Мы в Вихрях часто делаем модели в стол или оставляем их на время полежать. Собственно в этот раз ребята из MTSa опередили нас с релизом на несколько дней.

Выложили vikhr-qwen2.5-1.5b.

Для обучения использовали GrandMaster.

По арене чуть чуть хуже чем Cotype.

model
GGUF

9.5K viewsedited 14:06

Vikhr models

благодаря автору @plotquot теперь вихри стали ОЧЕНЬ быстрыми для мака

забрать для M серии мака тут

10.4K viewsedited 19:51

Vikhr models

Ура, мы преодолели отметку в 1000 подписчиков!

2.8K views11:01

Vikhr models

Два года назад я думал о том как русифицировать модели и что нужно делать LLM на русском с фокусом на английском. Потому что код это английский, да и на английском интернет качественнее. Потом произошел chatgpt moment, saiga(изначально задумывалась как претрен, но мы не вывезли)

А в декабре прошлого года я начал Вихри. Спустя год мы поддерживаем основные модальности, пишем статьи на А* воркшопы(хоть и не без косяков), и строим комьюнити вокруг своих моделей.

Горжусь всеми контрибьюторами кто присоединлся за год, без этого бы не было, вы лучшие!

Рад всем участникам сообщества, безумно благодарен всем кто донатил, писал в личку с благодарностями и рассказывал о наших моделях на лекциях и конференциях.

2.1K viewsedited 14:32

Vikhr models

Forwarded from Ruadaptная комната

Так как нашу статью приняли к публикации мы подготовили препринт версию статьи и выложили ее на arxiv 🎉
https://arxiv.org/abs/2412.21140
https://huggingface.co/papers/2412.21140

Что вы найдете в статье:
1. Полное описание применяемого метода
2. Информацию о проведенных экспериментах над моделями llama-3-8B и mistral-7B-v0.1 и их инструктивными версиями
3. Информацию об исследованных вариантах токенизации (BPE, Unigram, Extended), однако, которые не включают в себя наш последний вариант с токенизацией, который мы применяем для Qwen2.5 моделей.
4. Мат описание LEP и его вариантов, которые мы пробовали, а также эксперименты для выбора наилучшего

Чего в статье нет:
1. Экспериментов с Qwen2.5 моделями

Некоторые краткие хайлайты:
1. Расширение токенизации работает лучше, чем полная замена для модели llama-3 (а значит, скорее всего, и для всех моделей на основе cl100k_base токенайзера, либо же для всех современных мультиязычных моделей), но при этом для модели mistral-7B все не так однозначно, там unigram токенизация сработала отлично.

2. Для того чтобы найти рабочий рецепт требуется огромное количество экспериментов (в статье по сути мы описали только некоторую часть), а значит и быстрая оценка промежуточных моделей. Поэтому для этих целей мы использовали наш некоторый внутренний бенчмарк, который может быть относительно шустро посчитан на месте, без отправки сабмитов куда-либо.

3. По сути, для адаптации хватает и 20GB, а возможно и меньше данных, но это если верить метрикам. Loss же на самом деле падает очень стремительно вначале, а затем уже не так активно.

4. learning rate (а также total batch size) оказались крайне важными для адаптации LLaMa-3-8B (с низким lr модель просто не адаптировалась, метрики росли очень медленно), но не слишком важными для Mistral-7B-v0.1. Единого рецепта тут нет, для каждой модели видимо необходимо подбирать индивидуально.

5. Обычно при адаптации наблюдается небольшая просадка по mmlu_en относительно исходной модели, но ее можно минимизировать, на остальных же задачах в основном наблюдается рост, из-за чего среднее качество либо не падает, либо растет.

6. Таким образом, методология опробована на 1) Mistral-7B-v0.1, 2) LLaMa-3-8B и 3) Моделях Qwen2.5 и во всех случаях поставленная задача по смене токенизации решается без особых потерь знаний относительно исходной модели, а как приятный бонус, растет качество на некоторых русскоязычных бенчмарках и датасетах. Смена же токенизации дает де-факто ускорение генерации русскоязычного текста в символах/словах, по отношению к исходной модели, доводя вычислительную и экономическую эффективность использования на целевом языке до уровня английского.

arXiv.org

Facilitating large language model Russian adaptation with Learned...

Rapid advancements of large language model (LLM) technologies led to the introduction of powerful open-source instruction-tuned LLMs that have the same text generation quality as the...

2.3K views20:13

Vikhr models

0:12

This media is not supported in your browser

VIEW IN TELEGRAM

Salt

Мы начали собирать эту модель в августе, в конце августа получили первый прототип, а потом стало выходить миллион вариантов вида: а давайте whisper для речи+GAN для генерации аудио, а потом вышел FishAudio который лучше работает, да и в целом хорошая модель.

Мы шли с другого конца, собрали решение поверх lm с расширенным токенайзером, использовали WavTokenizer для токенизации аудио.

Учили около 150 а100 часов для финального экспа, но количество экспов и денег сожженых в этот проект переваливает за то сколько я потратил на оригинальные Вихри.

По итогу получился не трансформер который понимает речь и генерирует речь, а Dalle1 like tts на основе llama3 3b.

Сейчас идут работы по дообучению на музыку/аудио, вероятно проект получит папир и обновление.
Сейчас модель неплохо работает на английском, на русский мы доучиваем модель.

huggingface
collab
А еще мы учимся на ошибках и в этот раз выкладываем весь код для обучения и aulate для подсчета аудио метрик. So, truly open science!!

В релизе участвовали: Ksenya (основной контрибьютор), Костя писал метрики и сапортил инфру, а я ходил пинал чтобы оно все не развалилось и доехало до какого то состояния.

11.0K viewsedited 12:12

Vikhr models

⚡️ QVikhr-2.5-1.5B-Instruct-SMPO — Наша новая компактная llm теперь еще и с RLHF этапом. За счет RLHF получили качественный прирост по метрикам, а за счет размера гонять можно хоть на тостере!

🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO
🔗 GGUF: https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO_GGUF
🔗 Презентация Preference Optimization: https://docs.google.com/presentation/d/1WDzavFCtCeF8A9i0-hyyE9e8N1f_ieijyGiS4N0sAGQ/edit?usp=sharing

Коллектив авторов: @LakoMoorDev @nlpwanderer

14.5K viewsedited 11:52

Vikhr models

⚡️ QVikhr-2.5-1.5B-Instruct-r — Наша новая компактная llm теперь еще и с GRPO этапом. За счет GRPO это теперь первая reasoning модель на русском языке с честным RL .

🔗 Карточка модели:
https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r

17.1K views16:00

Vikhr models

Qwen2.5-7B-Instruct-Tool-Planning-v0.1

Первый vikhr обученный на Function Calling а так же Tool planing!
Модель обучена преимущественно на английском и это экспериментальный чекпоинт, используйте и пишите отзывы!

🔗модель
🔗датасет

7.3K viewsedited 16:53

Vikhr models

Спасибо НикитаШ за донат в 2000р!

764 views16:09

2025/02/22 09:04:54
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.group-telegram.com/buyppe/webview?embed=1" title="Channel Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>