Telegram Group Search
Мы дочинили arenahard, сабмиты снова работают как и раньше (спасибо gradio за обновления)

А также добавился gigachat max censored и uncensored. Подозреваю что цензор это мелкая модель сверху которая помимо прочего сильно режет качество генераций.


Версия с цензором где то между mistral nemo и gemma 27b. Версия без цензора на простой корзине(без особого кода, ризонинга и прочего) на уровне 4о.

Крутой рост за полгода, посмотрим что будет дальше.
💨👁 Vikhr-2-VL-2b-Instruct-experimental

это компактная VLM модель, обученная на переведенном датасете LLAVA-150K, специально доученная для обработки на русском языке. Дообученная модель является эксперементальной и не всегда будет работать ожидаемо (особенно OCR).

Ждем вашего фидбека от использования модели)

HuggingFace
Colab

Коллектив авторов: @LakoMoorDev @mlunderground @nlpwanderer
Обновилась llmarena.ru

TLDR
Vikhr Nemo - лучшая opensource модель в своем классе!
19 ноября в 18:30 у нас выступит команда Vikhr models c докладом:

“Как мы русифицировали языковые модели и пришли к лучшей в классе открытой модели на русском”

Ссылка на видеовстречу: https://telemost.yandex.ru/j/89085873905223
Постер нашей статьи на EMNLP.

Самая статья для тех кто не читал.
19 ноября в 18:30 у нас выступит команда Vikhr models c докладом:

“Как мы русифицировали языковые модели и пришли к лучшей в классе открытой модели на русском”

Ссылка на видеовстречу: https://telemost.yandex.ru/j/89085873905223
К сожалению произошла техническая накладка и не все смогли зайти. Выкладываем слайды и запись лекции.

Комментарии к посту отключены, старые удалились

YouTube
Slides
По истории с мерой

- В ранних экспах мы использовали паблик часть меры(которая выложена на хф), она же уехала в статью. На это обратили внимание в июне, я посмотрел и отложил в долгий ящик, а потом забыл пересчитать перед подачей.
- На приватной части мера наши текущие модели не будут SOTA, мы учили модели на сильно другие задачи.
- Из статьи удалены упоминания Мера, Альянса ИИ, Сбердевайсов и связанные бенчмарки.
- Мы использовали старую версию меры(январь 2024)
По arena bench

- хф слегка в очередной раз обновился и лб криво обновился(слетели Гиги, вихри, ruadapt)
- мы откатили на 17d ago версию, последние сабмиты(сайга новая, ruadapt qwen и ещё что то - пересчитываются)
Forwarded from MTS AI
🔓 Открываем код: Cotype Nano

Представляем Cotype Nano – открытую большую языковую модель, которая создана для решения бизнес-задач на русском языке. Модель работает локально на персональных устройствах и отлично подходит для разработки чат-ботов и виртуальных помощников.

Что умеет:
🔴Обрабатывать большие объемы данных — до 32,000 токенов (около 45 страниц текста) за раз
🔴Создавать контент и выполнять быстрый и точный перевод между русским и английским языками
🔴Анализировать и классифицировать данные для улучшения клиентского сервиса

Как устроена:
Модель основана на архитектуре трансформера Qwen 2.5, содержит 1,5 млрд параметров и совместима с популярными фреймворками: VLLM, OpenVINO и Hugging Face.

По бенчмаркам Ru Arena Hard Cotype Nano лидирует в своем классе (30.2). Доступна бесплатно, в том числе для коммерческого использования.

Узнать больше и скачать модель можно тут.

💻 Подробные технические характеристики на Хабре.
Please open Telegram to view this post
VIEW IN TELEGRAM
Мы в Вихрях часто делаем модели в стол или оставляем их на время полежать. Собственно в этот раз ребята из MTSa опередили нас с релизом на несколько дней.

Выложили vikhr-qwen2.5-1.5b.

Для обучения использовали GrandMaster.

По арене чуть чуть хуже чем Cotype.

model
GGUF
благодаря автору @plotquot теперь вихри стали ОЧЕНЬ быстрыми для мака

забрать для M серии мака тут
Ура, мы преодолели отметку в 1000 подписчиков!
Два года назад я думал о том как русифицировать модели и что нужно делать LLM на русском с фокусом на английском. Потому что код это английский, да и на английском интернет качественнее. Потом произошел chatgpt moment, saiga(изначально задумывалась как претрен, но мы не вывезли)

А в декабре прошлого года я начал Вихри. Спустя год мы поддерживаем основные модальности, пишем статьи на А* воркшопы(хоть и не без косяков), и строим комьюнити вокруг своих моделей.

Горжусь всеми контрибьюторами кто присоединлся за год, без этого бы не было, вы лучшие!

Рад всем участникам сообщества, безумно благодарен всем кто донатил, писал в личку с благодарностями и рассказывал о наших моделях на лекциях и конференциях.
Так как нашу статью приняли к публикации мы подготовили препринт версию статьи и выложили ее на arxiv 🎉
https://arxiv.org/abs/2412.21140
https://huggingface.co/papers/2412.21140

Что вы найдете в статье:

1. Полное описание применяемого метода
2. Информацию о проведенных экспериментах над моделями llama-3-8B и mistral-7B-v0.1 и их инструктивными версиями
3. Информацию об исследованных вариантах токенизации (BPE, Unigram, Extended), однако, которые не включают в себя наш последний вариант с токенизацией, который мы применяем для Qwen2.5 моделей.
4. Мат описание LEP и его вариантов, которые мы пробовали, а также эксперименты для выбора наилучшего

Чего в статье нет:
1. Экспериментов с Qwen2.5 моделями

Некоторые краткие хайлайты:
1. Расширение токенизации работает лучше, чем полная замена для модели llama-3 (а значит, скорее всего, и для всех моделей на основе cl100k_base токенайзера, либо же для всех современных мультиязычных моделей), но при этом для модели mistral-7B все не так однозначно, там unigram токенизация сработала отлично.

2. Для того чтобы найти рабочий рецепт требуется огромное количество экспериментов (в статье по сути мы описали только некоторую часть), а значит и быстрая оценка промежуточных моделей. Поэтому для этих целей мы использовали наш некоторый внутренний бенчмарк, который может быть относительно шустро посчитан на месте, без отправки сабмитов куда-либо.

3. По сути, для адаптации хватает и 20GB, а возможно и меньше данных, но это если верить метрикам. Loss же на самом деле падает очень стремительно вначале, а затем уже не так активно.

4. learning rate (а также total batch size) оказались крайне важными для адаптации LLaMa-3-8B (с низким lr модель просто не адаптировалась, метрики росли очень медленно), но не слишком важными для Mistral-7B-v0.1. Единого рецепта тут нет, для каждой модели видимо необходимо подбирать индивидуально.

5. Обычно при адаптации наблюдается небольшая просадка по mmlu_en относительно исходной модели, но ее можно минимизировать, на остальных же задачах в основном наблюдается рост, из-за чего среднее качество либо не падает, либо растет.

6. Таким образом, методология опробована на 1) Mistral-7B-v0.1, 2) LLaMa-3-8B и 3) Моделях Qwen2.5 и во всех случаях поставленная задача по смене токенизации решается без особых потерь знаний относительно исходной модели, а как приятный бонус, растет качество на некоторых русскоязычных бенчмарках и датасетах. Смена же токенизации дает де-факто ускорение генерации русскоязычного текста в символах/словах, по отношению к исходной модели, доводя вычислительную и экономическую эффективность использования на целевом языке до уровня английского.
This media is not supported in your browser
VIEW IN TELEGRAM
Salt

Мы начали собирать эту модель в августе, в конце августа получили первый прототип, а потом стало выходить миллион вариантов вида: а давайте whisper для речи+GAN для генерации аудио, а потом вышел FishAudio который лучше работает, да и в целом хорошая модель.

Мы шли с другого конца, собрали решение поверх lm с расширенным токенайзером, использовали WavTokenizer для токенизации аудио.

Учили около 150 а100 часов для финального экспа, но количество экспов и денег сожженых в этот проект переваливает за то сколько я потратил на оригинальные Вихри.

По итогу получился не трансформер который понимает речь и генерирует речь, а Dalle1 like tts на основе llama3 3b.

Сейчас идут работы по дообучению на музыку/аудио, вероятно проект получит папир и обновление.
Сейчас модель неплохо работает на английском, на русский мы доучиваем модель.


huggingface
collab
А еще мы учимся на ошибках и в этот раз выкладываем весь код для обучения и aulate для подсчета аудио метрик. So, truly open science!!


В релизе участвовали: Ksenya (основной контрибьютор), Костя писал метрики и сапортил инфру, а я ходил пинал чтобы оно все не развалилось и доехало до какого то состояния.
⚡️ QVikhr-2.5-1.5B-Instruct-SMPO — Наша новая компактная llm теперь еще и с RLHF этапом. За счет RLHF получили качественный прирост по метрикам, а за счет размера гонять можно хоть на тостере!

🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO
🔗 GGUF: https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO_GGUF
🔗 Презентация Preference Optimization: https://docs.google.com/presentation/d/1WDzavFCtCeF8A9i0-hyyE9e8N1f_ieijyGiS4N0sAGQ/edit?usp=sharing

Коллектив авторов: @LakoMoorDev @nlpwanderer
⚡️ QVikhr-2.5-1.5B-Instruct-r — Наша новая компактная llm теперь еще и с GRPO этапом. За счет GRPO это теперь первая reasoning модель на русском языке с честным RL .


🔗 Карточка модели:
https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r
Qwen2.5-7B-Instruct-Tool-Planning-v0.1

Первый vikhr обученный на Function Calling а так же Tool planing!
Модель обучена преимущественно на английском и это экспериментальный чекпоинт, используйте и пишите отзывы!

🔗модель
🔗датасет
Спасибо НикитаШ за донат в 2000р!
2025/02/22 09:04:54
Back to Top
HTML Embed Code: