group-telegram.com/ai_newz/3697
Last Update:
Alibaba Wan 2.1 - новая SOTA опенсорс видео модель
Скорее всего это та самая загадочная модель, которая уже месяц доступна в Qwen Chat. На лидерборде VBench она занимает первое место, но там нет нескольких сильных конкурентов, вроде Veo 2 от гугла. Больше бенчей никаких нет, так что ждём полноценного техрепорта и тем временем вайбчекаем модель по генерациям). По ним, например, видно что модель очень хорошо генерирует текст, как на английском, так и на китайском, с чем другие модели справляются куда хуже.
Идёт в двух размерах — 1.3B и 14B и в нескольких разных вариантах для разных разрешений (поддерживаются 480p и 720p). Маленькой 1.3B модели нужно всего 8,2 гигабайта VRAM для запуска, а на генерацию видео уходит всего 4 минуты на 4090.
Большая моделька потребляет заметно больше — вплоть до 77 гигабайт. Но модели совсем не оптимизированные (замеры по памяти делали с fp32 моделями), так что есть много простора для оптимизации. Посмотрите на тот же Hunyuan, который при ~таком же количестве параметров неплохо запускается на консьюмерских видяхах. Умельцы за пару недель ещё оптимизируют эти модели, чтобы запускалось на каждом холодильнике.
Веса
Код
wanxai.com
@ai_newz
BY эйай ньюз
Share with your friend now:
group-telegram.com/ai_newz/3697