Telegram Group & Telegram Channel
Потестил CogStudio.

Это опенсорсный фреймворк от создателя Pinokio для генерации видео в разных режимах:
* text-2-video
* video-2-video
* image-2-video
* extend video

Под капотом китайская CogVideoX 2B / 5B. Возможно будет расширяться и Flux Video на выходе сюда тоже заедет.

В img-2-vid кадр держит консистентно, не кипит. Какое-то понимание мира вокруг и взаимодействия объектов между собой есть. Качество и детализацию не сильно зажёвывает.

На выходе 6 сек видео и гифка разрешением 740x480 в 6 fps. Есть встроенный апскейлер до 2880х1920, но он сильно смазывает детали, так что лучше использовать на чём-то вроде дальних планов, пейзажей, итд, а не на лицах крупняком. Альтернативно юзаем Topaz для апскейла и Flowframes для интерполяции кадров.

Промта слушается когда-как. Хорошо работает там, где объект более-менее статичен в центре и нужно анимировать фон, или наоборот, а также лёгкой имитации ручной съёмки. Тяжело даётся динамика: чем её требуется больше, тем модели сложнее. Частично можно компенсировать детальностью промта.

Контроль через сид, количество шагов, итд на месте. Но нужно завозить рульки типа Kling Motion Brush или DragNuwa.

Для улучшения промта опционально подрубается API от OpenAI. Хотя можно спокойно использовать опенсорсные мелкие модели типа ламы 3.1, qwen, phi, или кого ещё.

Из интересных плюшек:
* Сгенерированное видео можно послать в vid-2-vid, например для смены стиля или как указания движения объектам на новом видео.
* Или отправить видос на extend и расширить его не с конца, а с выбранного кадра, создавая ответвление. Правда с каждым последующим расширением качество будет падать.
* Generate forever на репите генерит видео по промту пока не остановишь. Может пригодиться если ушёл пить кофе/уснул, а когда вернулся у тебя уже есть вагон вариантов видео.

В txt-2-vid режиме 2B модель потребляет в районе 4-5 ГБ VRAM с частичной выгрузкой в RAM, и на видео уходит ~4 мин. Если отключить CPU offload, то скорость станет ~2 мин, но уже понадобится 18-19 ГБ VRAM.

5B модель в 24 ГБ VRAM уже не поместится и будет генерить только с выгрузкой в RAM. На 1 видео уже уйдёт ~10 мин. Качество картинки станет получше, но всё-равно пока так себе.

А вот в img-2-vid уже более годные результаты. Чем качественнее изначальный кадр, тем лучше видео на выходе. Закидаем свои картинки из Midjourney, Flux, SDXL, итд, вбиваем промт подетальнее и вперёд. Так как в этом режиме работает 5B модель и нет отключения CPU offload, то потребляется 5-7 ГБ VRAM остальное идёт в RAM, и на 1 видео в 50 шагов уходит ~10 минут.

Это конечно быстрее, чем на бесплатных тарифах Runway, Kling, Luma, итд ибо на них сейчас вообще не погенерить — только на платных. Но хотелось бы скорости. Пофиксят это + нарастят контроль с качеством, и будет гуд.

Гитхаб
Pinokio



group-telegram.com/Psy_Eyes/1971
Create:
Last Update:

Потестил CogStudio.

Это опенсорсный фреймворк от создателя Pinokio для генерации видео в разных режимах:
* text-2-video
* video-2-video
* image-2-video
* extend video

Под капотом китайская CogVideoX 2B / 5B. Возможно будет расширяться и Flux Video на выходе сюда тоже заедет.

В img-2-vid кадр держит консистентно, не кипит. Какое-то понимание мира вокруг и взаимодействия объектов между собой есть. Качество и детализацию не сильно зажёвывает.

На выходе 6 сек видео и гифка разрешением 740x480 в 6 fps. Есть встроенный апскейлер до 2880х1920, но он сильно смазывает детали, так что лучше использовать на чём-то вроде дальних планов, пейзажей, итд, а не на лицах крупняком. Альтернативно юзаем Topaz для апскейла и Flowframes для интерполяции кадров.

Промта слушается когда-как. Хорошо работает там, где объект более-менее статичен в центре и нужно анимировать фон, или наоборот, а также лёгкой имитации ручной съёмки. Тяжело даётся динамика: чем её требуется больше, тем модели сложнее. Частично можно компенсировать детальностью промта.

Контроль через сид, количество шагов, итд на месте. Но нужно завозить рульки типа Kling Motion Brush или DragNuwa.

Для улучшения промта опционально подрубается API от OpenAI. Хотя можно спокойно использовать опенсорсные мелкие модели типа ламы 3.1, qwen, phi, или кого ещё.

Из интересных плюшек:
* Сгенерированное видео можно послать в vid-2-vid, например для смены стиля или как указания движения объектам на новом видео.
* Или отправить видос на extend и расширить его не с конца, а с выбранного кадра, создавая ответвление. Правда с каждым последующим расширением качество будет падать.
* Generate forever на репите генерит видео по промту пока не остановишь. Может пригодиться если ушёл пить кофе/уснул, а когда вернулся у тебя уже есть вагон вариантов видео.

В txt-2-vid режиме 2B модель потребляет в районе 4-5 ГБ VRAM с частичной выгрузкой в RAM, и на видео уходит ~4 мин. Если отключить CPU offload, то скорость станет ~2 мин, но уже понадобится 18-19 ГБ VRAM.

5B модель в 24 ГБ VRAM уже не поместится и будет генерить только с выгрузкой в RAM. На 1 видео уже уйдёт ~10 мин. Качество картинки станет получше, но всё-равно пока так себе.

А вот в img-2-vid уже более годные результаты. Чем качественнее изначальный кадр, тем лучше видео на выходе. Закидаем свои картинки из Midjourney, Flux, SDXL, итд, вбиваем промт подетальнее и вперёд. Так как в этом режиме работает 5B модель и нет отключения CPU offload, то потребляется 5-7 ГБ VRAM остальное идёт в RAM, и на 1 видео в 50 шагов уходит ~10 минут.

Это конечно быстрее, чем на бесплатных тарифах Runway, Kling, Luma, итд ибо на них сейчас вообще не погенерить — только на платных. Но хотелось бы скорости. Пофиксят это + нарастят контроль с качеством, и будет гуд.

Гитхаб
Pinokio

BY Psy Eyes


Share with your friend now:
group-telegram.com/Psy_Eyes/1971

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In addition, Telegram now supports the use of third-party streaming tools like OBS Studio and XSplit to broadcast live video, allowing users to add overlays and multi-screen layouts for a more professional look. Apparently upbeat developments in Russia's discussions with Ukraine helped at least temporarily send investors back into risk assets. Russian President Vladimir Putin said during a meeting with his Belarusian counterpart Alexander Lukashenko that there were "certain positive developments" occurring in the talks with Ukraine, according to a transcript of their meeting. Putin added that discussions were happening "almost on a daily basis." Crude oil prices edged higher after tumbling on Thursday, when U.S. West Texas intermediate slid back below $110 per barrel after topping as much as $130 a barrel in recent sessions. Still, gas prices at the pump rose to fresh highs. "Your messages about the movement of the enemy through the official chatbot … bring new trophies every day," the government agency tweeted. In a message on his Telegram channel recently recounting the episode, Durov wrote: "I lost my company and my home, but would do it again – without hesitation."
from ua


Telegram Psy Eyes
FROM American