⬆️ Фармим классы на Хабре https://habr.com/ru/articles/806857/ ⬆️
Хабр
Мы опубликовали датасет для детекции речи размером более 150 тысяч часов на 6000+ языках
Мы выложили в публичный доступ гигантский датасет для детекции речи (voice activity detection). Датасет содержит порядка 150 тысяч часов аудио более чем на 6,000 языках. Количество уникальных...
🚀 Silero VAD v5, в 3 раза быстрее, теперь с поддержкой 6 000+ языков!
- Поддержка 6 000+ языков;
- TorchScript стал в 3 раза быстрее, ONNX на 10%;
- Существенно повышена устойчивость на шумных данных;
- Рост качества на 5-7%;
- Переход на фиксированный размер окна;
- Добавлены метрики на 9 датасетах (7 публичных, 2 приватных);
🔗 https://github.com/snakers4/silero-vad/releases/tag/v5.0
- Поддержка 6 000+ языков;
- TorchScript стал в 3 раза быстрее, ONNX на 10%;
- Существенно повышена устойчивость на шумных данных;
- Рост качества на 5-7%;
- Переход на фиксированный размер окна;
- Добавлены метрики на 9 датасетах (7 публичных, 2 приватных);
🔗 https://github.com/snakers4/silero-vad/releases/tag/v5.0
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Наш публичный детектор голоса стал быстрее в 3 раза (*), качественнее, устойчивее и теперь работает на 6 000 языках
Сравнение качества версий v5, v4 и v3.1 Мы уже рассказывали про наш детектор голоса на Хабре тут , тут и тут . Кратко опишу, что стало лучше в этот раз: Поддержка 6 000+...
Silero News
🚀 Silero VAD v5, в 3 раза быстрее, теперь с поддержкой 6 000+ языков! - Поддержка 6 000+ языков; - TorchScript стал в 3 раза быстрее, ONNX на 10%; - Существенно повышена устойчивость на шумных данных; - Рост качества на 5-7%; - Переход на фиксированный размер…
Раз наш VAD, будучи полезной тулзой (судя даже по цитатам в пейперах), дошёл наконец-то до версии близкой к ультимативной, то мы аж запулили его в PIP:
- https://pypi.org/project/silero-vad/5.1/
Забавно, что имя
Как использовать через
- https://github.com/snakers4/silero-vad?tab=readme-ov-file#fast-start
- https://pypi.org/project/silero-vad/5.1/
Забавно, что имя
silero-vad
там уже было занято, но люди по доброте душевной отдали его нам "обратно".Как использовать через
pip
:- https://github.com/snakers4/silero-vad?tab=readme-ov-file#fast-start
PyPI
silero-vad
Voice Activity Detector (VAD) by Silero
Forwarded from Нейроделикатесы💡
Media is too big
VIEW IN TELEGRAM
Поэма «Облако на кухне» придумана человеком, написана, озвучена и нарисована машиной. Использованы отечественные нейросети.
Особенности фонетики якутского языка для синтеза речи
Недавно мы закончили проект по синтезу якутского языка.
Хотя мы не можем выложить модели в общий доступ, соображениями на тему того, как можно делать синтез якутского языка мы поделиться можем.
🐱 Под котом катом вы узнаете:
- Как звучит синтез на якутском языке;
- Чем отличается якутский алфавит от русского и какие "дополнительные" звуки там есть;
- Как работать с ударениями на якутском языке;
- Как якутский синтез речи говорит на русском с якутским акцентом;
⭐️ https://habr.com/ru/articles/837364/
Недавно мы закончили проект по синтезу якутского языка.
Хотя мы не можем выложить модели в общий доступ, соображениями на тему того, как можно делать синтез якутского языка мы поделиться можем.
- Как звучит синтез на якутском языке;
- Чем отличается якутский алфавит от русского и какие "дополнительные" звуки там есть;
- Как работать с ударениями на якутском языке;
- Как якутский синтез речи говорит на русском с якутским акцентом;
⭐️ https://habr.com/ru/articles/837364/
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 Мы тут недавно докатили новое поколение STT моделей у себя. Под это запилили сравнение метрик.
🤯 Мы думали, что будет ситуация в духе "lie down and rot", то есть грубо говоря на каждый наш рубль Сбер тратит 1 000 рублей, но наша новая "медленная" модель (конечно, она не рекуррентная) нас очень сильно удивила. Как все проснутся, опубликую статью на Хабре.
🧪 Мы раскатили её в нашего тестового бота для распознавания - @silero_audio_bot.
⚙️ Ещё будут раскачены наработки по улучшению потоковой сегментации аудио, но это отдельно ещё накатим.
🤯 Мы думали, что будет ситуация в духе "lie down and rot", то есть грубо говоря на каждый наш рубль Сбер тратит 1 000 рублей, но наша новая "медленная" модель (конечно, она не рекуррентная) нас очень сильно удивила. Как все проснутся, опубликую статью на Хабре.
🧪 Мы раскатили её в нашего тестового бота для распознавания - @silero_audio_bot.
⚙️ Ещё будут раскачены наработки по улучшению потоковой сегментации аудио, но это отдельно ещё накатим.
Сравнение систем распознавания русского языка 2024
⬆️ https://habr.com/ru/articles/849932/ ⬆️
Если у вас есть аккаунт с правом голоса, то можете поддержать статью своим⬆️
Если у вас есть аккаунт с правом голоса, то можете поддержать статью своим
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Сравнение систем распознавания русского языка 2024
После значительной паузы, опять пришло время обновить наше исследование ( прошлое , позапрошлое ) качества систем распознавания русского языка. Опять же, мы не думали, что добежим до этого момента и...
Добавил новые модели к сравнению, чтобы окончательно закрыть вопрос про непродуктовые решения (и без меня их тыкали, там всё не очень, несмотря на инвестиции и маркетинг). Разница между CTC и RNN-T сократилась.
У нас есть большой чанк новых данных, поэтому полагаю, что можно будет рассчитывать ещё на хороший прирост, на Хабр постить пока не буду.
Очевидные выводы:
- Наша прошлая модель всё ещё лучше;
- Конвергенция метрик;
- Видно, каких данных много и на чём тренировалось;
- Видно, что на бизнес-доменах метрики ниже, но в целом очень достойно;
Что реально удивило - поведение на пранк-звонках. По сути первый раз реально вижу в действии пользу большого пре-трейна после многих лет муссирования мантры в статьях.
У нас есть большой чанк новых данных, поэтому полагаю, что можно будет рассчитывать ещё на хороший прирост, на Хабр постить пока не буду.
Очевидные выводы:
- Наша прошлая модель всё ещё лучше;
- Конвергенция метрик;
- Видно, каких данных много и на чём тренировалось;
- Видно, что на бизнес-доменах метрики ниже, но в целом очень достойно;
Что реально удивило - поведение на пранк-звонках. По сути первый раз реально вижу в действии пользу большого пре-трейна после многих лет муссирования мантры в статьях.
Forwarded from Silero News
📌 Попробовать просто - или галкой в паке, или командой
/hd
в боте.🤫 Мы держали это в глубоком секрете, но это наконец случилось.
🎁 Держите подарок, мы успели к праздникам!
🆕 Встречайте HD голоса! Они теперь прямо почти как настоящие. Яркие, хлёсткие, чистые, эмоциональные!
🆕 Всего мы добавили 1082 HD голоса для ~25 паков. Из них 284 совсем новые, то есть их раньше не было в SD-версии.
⚙️ Пока мы сделали их доступными для всех пользователей бота, но новую генерацию нельзя начать, не закончив старую.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Alamerd | WarCraft
Media is too big
VIEW IN TELEGRAM
У наших друзей из Silero вышло большое обновление. Было добавлено более 1000 HD голосов, 300 из которых совершенно новые!
Ссылка на бота
Ссылка на бота
Forwarded from Silero News
Please open Telegram to view this post
VIEW IN TELEGRAM
Делаем проект Фонда Бортника по разработке модели синтеза речи языков России и СНГ
🔎 Ищем людей, у которых два родных языка (русский и второй родной), которые бы помогли нам с рядом вещей:
- Помощь в поиске актуальных текстов на родном языке;
- Запись голоса (как на русском, так и на втором родном языке);
- Минимальные консультации по фонетике, ударениям и грамматике.
Наша основная задача - сделать удобный, быстрый, устойчивый, качественный и нетребовательный к вычислительным ресурсам синтез на самых популярных у нас в стране и в ближайшем зарубежье языках.
По итогу проекта планируется публикация общедоступных моделей синтеза языка под свободной лицензией (MIT).
✉️ Контакты для связи, условия участия и детали оговариваем в каждом случае отдельно
🔎 Ищем людей, у которых два родных языка (русский и второй родной), которые бы помогли нам с рядом вещей:
- Помощь в поиске актуальных текстов на родном языке;
- Запись голоса (как на русском, так и на втором родном языке);
- Минимальные консультации по фонетике, ударениям и грамматике.
Наша основная задача - сделать удобный, быстрый, устойчивый, качественный и нетребовательный к вычислительным ресурсам синтез на самых популярных у нас в стране и в ближайшем зарубежье языках.
По итогу проекта планируется публикация общедоступных моделей синтеза языка под свободной лицензией (MIT).
✉️ Контакты для связи, условия участия и детали оговариваем в каждом случае отдельно
Silero News
Делаем проект Фонда Бортника по разработке модели синтеза речи языков России и СНГ 🔎 Ищем людей, у которых два родных языка (русский и второй родной), которые бы помогли нам с рядом вещей: - Помощь в поиске актуальных текстов на родном языке; - Запись голоса…
🤷♂️
Удивительно мало татар в обращениях (ноль).
По идее они должны быть на первом месте, чисто статистически, среди именно постоянного населения РФ.
Удивительно мало татар в обращениях (ноль).
По идее они должны быть на первом месте, чисто статистически, среди именно постоянного населения РФ.