Telegram Group & Telegram Channel
This media is not supported in your browser
VIEW IN TELEGRAM
Hunyuan Video - новый опенсорс 13B видео генератор от Tencent

Качество офигенное, даже для 13B модели, хоть и генерировать может максимум пять секунд. Но, самое главное - доступны веса.

Генерится 129 кадров, что как раз чуть больше 5 сек в 24 fps.

По архитектуре: используют Temporal VAE с 16 каналами и 4x даунсеплингом по времени, то есть это 32 latent frame'а. То есть автоэнкодер не самый навороченный – в других моделях и видео и 128 каналов и более агрессивный даунсемплинг по времени.

Сама модель очень похожа на Flux, где сначала идут two-stream блоки как в SD3, где картиночные и текстовые токены обрабатываются параллельно, а затем идёт серия обычных DiT блоков.

В качестве текстового энкодера используют Clip и Multimodal LLM (llava-llama-3-8b) вместо традиционного T5. Говорят, что с MLLM у них достигается боле качественный prompt alignment.

Чтобы запустить модель нужно минимум 45 гигабайт видеопамяти для 544x960 видео и 60 гигов для 720p. Умельцы явно подкрутят и оптимизируют модельку, так что запуск на консьюмерских видюхах на низком разрешении не исключён.

Статья занятная, стоит прочитать в деталях.

Я пока сам их моделью ничего не генерил, но предполагаю, что одно видео будет генерится минут 10.

Демка (нужен китайский номер)
Веса
Пейпер

@ai_newz



group-telegram.com/ai_newz/3485
Create:
Last Update:

Hunyuan Video - новый опенсорс 13B видео генератор от Tencent

Качество офигенное, даже для 13B модели, хоть и генерировать может максимум пять секунд. Но, самое главное - доступны веса.

Генерится 129 кадров, что как раз чуть больше 5 сек в 24 fps.

По архитектуре: используют Temporal VAE с 16 каналами и 4x даунсеплингом по времени, то есть это 32 latent frame'а. То есть автоэнкодер не самый навороченный – в других моделях и видео и 128 каналов и более агрессивный даунсемплинг по времени.

Сама модель очень похожа на Flux, где сначала идут two-stream блоки как в SD3, где картиночные и текстовые токены обрабатываются параллельно, а затем идёт серия обычных DiT блоков.

В качестве текстового энкодера используют Clip и Multimodal LLM (llava-llama-3-8b) вместо традиционного T5. Говорят, что с MLLM у них достигается боле качественный prompt alignment.

Чтобы запустить модель нужно минимум 45 гигабайт видеопамяти для 544x960 видео и 60 гигов для 720p. Умельцы явно подкрутят и оптимизируют модельку, так что запуск на консьюмерских видюхах на низком разрешении не исключён.

Статья занятная, стоит прочитать в деталях.

Я пока сам их моделью ничего не генерил, но предполагаю, что одно видео будет генерится минут 10.

Демка (нужен китайский номер)
Веса
Пейпер

@ai_newz

BY эйай ньюз


Share with your friend now:
group-telegram.com/ai_newz/3485

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"For Telegram, accountability has always been a problem, which is why it was so popular even before the full-scale war with far-right extremists and terrorists from all over the world," she told AFP from her safe house outside the Ukrainian capital. Soloviev also promoted the channel in a post he shared on his own Telegram, which has 580,000 followers. The post recommended his viewers subscribe to "War on Fakes" in a time of fake news. In a message on his Telegram channel recently recounting the episode, Durov wrote: "I lost my company and my home, but would do it again – without hesitation." "He has to start being more proactive and to find a real solution to this situation, not stay in standby without interfering. It's a very irresponsible position from the owner of Telegram," she said. On Telegram’s website, it says that Pavel Durov “supports Telegram financially and ideologically while Nikolai (Duvov)’s input is technological.” Currently, the Telegram team is based in Dubai, having moved around from Berlin, London and Singapore after departing Russia. Meanwhile, the company which owns Telegram is registered in the British Virgin Islands.
from ua


Telegram эйай ньюз
FROM American