group-telegram.com/ai_newz/3485
Last Update:
Hunyuan Video - новый опенсорс 13B видео генератор от Tencent
Качество офигенное, даже для 13B модели, хоть и генерировать может максимум пять секунд. Но, самое главное - доступны веса.
Генерится 129 кадров, что как раз чуть больше 5 сек в 24 fps.
По архитектуре: используют Temporal VAE с 16 каналами и 4x даунсеплингом по времени, то есть это 32 latent frame'а. То есть автоэнкодер не самый навороченный – в других моделях и видео и 128 каналов и более агрессивный даунсемплинг по времени.
Сама модель очень похожа на Flux, где сначала идут two-stream блоки как в SD3, где картиночные и текстовые токены обрабатываются параллельно, а затем идёт серия обычных DiT блоков.
В качестве текстового энкодера используют Clip и Multimodal LLM (llava-llama-3-8b) вместо традиционного T5. Говорят, что с MLLM у них достигается боле качественный prompt alignment.
Чтобы запустить модель нужно минимум 45 гигабайт видеопамяти для 544x960 видео и 60 гигов для 720p. Умельцы явно подкрутят и оптимизируют модельку, так что запуск на консьюмерских видюхах на низком разрешении не исключён.
Статья занятная, стоит прочитать в деталях.
Я пока сам их моделью ничего не генерил, но предполагаю, что одно видео будет генерится минут 10.
Демка (нужен китайский номер)
Веса
Пейпер
@ai_newz
BY эйай ньюз
Share with your friend now:
group-telegram.com/ai_newz/3485