LLaSA: Scaling Train-Time and Test-Time Compute for LLaMA-based Speech Synthesis
Новая SOTA (state of the art - достижение) в клонировании голоса с контролем эмоций и ультрареалистичным звуком.
Клонирует голос с акцентом по 5-10 секундному образцу
Хотя на TTS-арене на 12 месте, но может еще рано, он еще свежий
В основе Llama 3.2
Поддерживает клонирование голоса на английском и китайском языках
Есть 1B, 3B, обещают 8B
Сайта не нашел. Есть видео от какого-то индуса с локальным запуском
Гитхаб - обучение с нууля
Демо
local-llasa-tts - для локального запуска с GUI на gradio
#voicecloning #tts #text2speech #leaderboard
Новая SOTA (state of the art - достижение) в клонировании голоса с контролем эмоций и ультрареалистичным звуком.
Клонирует голос с акцентом по 5-10 секундному образцу
Хотя на TTS-арене на 12 месте, но может еще рано, он еще свежий
В основе Llama 3.2
Поддерживает клонирование голоса на английском и китайском языках
Есть 1B, 3B, обещают 8B
Сайта не нашел. Есть видео от какого-то индуса с локальным запуском
Гитхаб - обучение с нууля
Демо
local-llasa-tts - для локального запуска с GUI на gradio
#voicecloning #tts #text2speech #leaderboard
group-telegram.com/GreenNeuralRobots/6137
Create:
Last Update:
Last Update:
LLaSA: Scaling Train-Time and Test-Time Compute for LLaMA-based Speech Synthesis
Новая SOTA (state of the art - достижение) в клонировании голоса с контролем эмоций и ультрареалистичным звуком.
Клонирует голос с акцентом по 5-10 секундному образцу
Хотя на TTS-арене на 12 месте, но может еще рано, он еще свежий
В основе Llama 3.2
Поддерживает клонирование голоса на английском и китайском языках
Есть 1B, 3B, обещают 8B
Сайта не нашел. Есть видео от какого-то индуса с локальным запуском
Гитхаб - обучение с нууля
Демо
local-llasa-tts - для локального запуска с GUI на gradio
#voicecloning #tts #text2speech #leaderboard
Новая SOTA (state of the art - достижение) в клонировании голоса с контролем эмоций и ультрареалистичным звуком.
Клонирует голос с акцентом по 5-10 секундному образцу
Хотя на TTS-арене на 12 месте, но может еще рано, он еще свежий
В основе Llama 3.2
Поддерживает клонирование голоса на английском и китайском языках
Есть 1B, 3B, обещают 8B
Сайта не нашел. Есть видео от какого-то индуса с локальным запуском
Гитхаб - обучение с нууля
Демо
local-llasa-tts - для локального запуска с GUI на gradio
#voicecloning #tts #text2speech #leaderboard
BY Нейронавт | Нейросети в творчестве

Share with your friend now:
group-telegram.com/GreenNeuralRobots/6137