group-telegram.com/ai_newz/2090
Last Update:
Релизнулась SOTA библиотека для генерации аудио AudioCraft v1.0.0
Я писал раньше о выходе начальной версии AudioCraft, когда Meta AI опубликовали статью MusicGen для генерации музыки по тексту.
Почему новый релиз интересен?
Это стабильный релиз и в него добавили код для трениновки моделей, в том числе несколько новых:
- EnCodec - по сути квантизованый автоэнкодер (VQGAN), который сжимает аудио в серию дискретных токенов.
- AudioGen - генерит по тексту повседневные звуки, типа лая собаки и прочих звуковых эффектов (кроме музыки).
- MusicGen - text2music и midi2musiс синтез. Есть модели от 300M до 3.3B параметров. На 16Gb влезут.
- MultiBandDiffusion - новый декодер, основанный на диффузии, который декодирует токены MusicGen в аудио дорожку. Лучше чем EnCodec.
(Ждите серию постов про каждую из этих моделей)
Еще добавлены веса AudioGen и MultiBandDiffusion.
🔥А теперь представьте, использование этих моделей при монтировании роликов для ютуба.
Блог
Код и веса
Демо в колабе
MusicGen ноутбук
@ai_newz
BY эйай ньюз

Share with your friend now:
group-telegram.com/ai_newz/2090