Telegram Group & Telegram Channel
Потестил CogStudio.

Это опенсорсный фреймворк от создателя Pinokio для генерации видео в разных режимах:
* text-2-video
* video-2-video
* image-2-video
* extend video

Под капотом китайская CogVideoX 2B / 5B. Возможно будет расширяться и Flux Video на выходе сюда тоже заедет.

В img-2-vid кадр держит консистентно, не кипит. Какое-то понимание мира вокруг и взаимодействия объектов между собой есть. Качество и детализацию не сильно зажёвывает.

На выходе 6 сек видео и гифка разрешением 740x480 в 6 fps. Есть встроенный апскейлер до 2880х1920, но он сильно смазывает детали, так что лучше использовать на чём-то вроде дальних планов, пейзажей, итд, а не на лицах крупняком. Альтернативно юзаем Topaz для апскейла и Flowframes для интерполяции кадров.

Промта слушается когда-как. Хорошо работает там, где объект более-менее статичен в центре и нужно анимировать фон, или наоборот, а также лёгкой имитации ручной съёмки. Тяжело даётся динамика: чем её требуется больше, тем модели сложнее. Частично можно компенсировать детальностью промта.

Контроль через сид, количество шагов, итд на месте. Но нужно завозить рульки типа Kling Motion Brush или DragNuwa.

Для улучшения промта опционально подрубается API от OpenAI. Хотя можно спокойно использовать опенсорсные мелкие модели типа ламы 3.1, qwen, phi, или кого ещё.

Из интересных плюшек:
* Сгенерированное видео можно послать в vid-2-vid, например для смены стиля или как указания движения объектам на новом видео.
* Или отправить видос на extend и расширить его не с конца, а с выбранного кадра, создавая ответвление. Правда с каждым последующим расширением качество будет падать.
* Generate forever на репите генерит видео по промту пока не остановишь. Может пригодиться если ушёл пить кофе/уснул, а когда вернулся у тебя уже есть вагон вариантов видео.

В txt-2-vid режиме 2B модель потребляет в районе 4-5 ГБ VRAM с частичной выгрузкой в RAM, и на видео уходит ~4 мин. Если отключить CPU offload, то скорость станет ~2 мин, но уже понадобится 18-19 ГБ VRAM.

5B модель в 24 ГБ VRAM уже не поместится и будет генерить только с выгрузкой в RAM. На 1 видео уже уйдёт ~10 мин. Качество картинки станет получше, но всё-равно пока так себе.

А вот в img-2-vid уже более годные результаты. Чем качественнее изначальный кадр, тем лучше видео на выходе. Закидаем свои картинки из Midjourney, Flux, SDXL, итд, вбиваем промт подетальнее и вперёд. Так как в этом режиме работает 5B модель и нет отключения CPU offload, то потребляется 5-7 ГБ VRAM остальное идёт в RAM, и на 1 видео в 50 шагов уходит ~10 минут.

Это конечно быстрее, чем на бесплатных тарифах Runway, Kling, Luma, итд ибо на них сейчас вообще не погенерить — только на платных. Но хотелось бы скорости. Пофиксят это + нарастят контроль с качеством, и будет гуд.

Гитхаб
Pinokio



group-telegram.com/Psy_Eyes/1971
Create:
Last Update:

Потестил CogStudio.

Это опенсорсный фреймворк от создателя Pinokio для генерации видео в разных режимах:
* text-2-video
* video-2-video
* image-2-video
* extend video

Под капотом китайская CogVideoX 2B / 5B. Возможно будет расширяться и Flux Video на выходе сюда тоже заедет.

В img-2-vid кадр держит консистентно, не кипит. Какое-то понимание мира вокруг и взаимодействия объектов между собой есть. Качество и детализацию не сильно зажёвывает.

На выходе 6 сек видео и гифка разрешением 740x480 в 6 fps. Есть встроенный апскейлер до 2880х1920, но он сильно смазывает детали, так что лучше использовать на чём-то вроде дальних планов, пейзажей, итд, а не на лицах крупняком. Альтернативно юзаем Topaz для апскейла и Flowframes для интерполяции кадров.

Промта слушается когда-как. Хорошо работает там, где объект более-менее статичен в центре и нужно анимировать фон, или наоборот, а также лёгкой имитации ручной съёмки. Тяжело даётся динамика: чем её требуется больше, тем модели сложнее. Частично можно компенсировать детальностью промта.

Контроль через сид, количество шагов, итд на месте. Но нужно завозить рульки типа Kling Motion Brush или DragNuwa.

Для улучшения промта опционально подрубается API от OpenAI. Хотя можно спокойно использовать опенсорсные мелкие модели типа ламы 3.1, qwen, phi, или кого ещё.

Из интересных плюшек:
* Сгенерированное видео можно послать в vid-2-vid, например для смены стиля или как указания движения объектам на новом видео.
* Или отправить видос на extend и расширить его не с конца, а с выбранного кадра, создавая ответвление. Правда с каждым последующим расширением качество будет падать.
* Generate forever на репите генерит видео по промту пока не остановишь. Может пригодиться если ушёл пить кофе/уснул, а когда вернулся у тебя уже есть вагон вариантов видео.

В txt-2-vid режиме 2B модель потребляет в районе 4-5 ГБ VRAM с частичной выгрузкой в RAM, и на видео уходит ~4 мин. Если отключить CPU offload, то скорость станет ~2 мин, но уже понадобится 18-19 ГБ VRAM.

5B модель в 24 ГБ VRAM уже не поместится и будет генерить только с выгрузкой в RAM. На 1 видео уже уйдёт ~10 мин. Качество картинки станет получше, но всё-равно пока так себе.

А вот в img-2-vid уже более годные результаты. Чем качественнее изначальный кадр, тем лучше видео на выходе. Закидаем свои картинки из Midjourney, Flux, SDXL, итд, вбиваем промт подетальнее и вперёд. Так как в этом режиме работает 5B модель и нет отключения CPU offload, то потребляется 5-7 ГБ VRAM остальное идёт в RAM, и на 1 видео в 50 шагов уходит ~10 минут.

Это конечно быстрее, чем на бесплатных тарифах Runway, Kling, Luma, итд ибо на них сейчас вообще не погенерить — только на платных. Но хотелось бы скорости. Пофиксят это + нарастят контроль с качеством, и будет гуд.

Гитхаб
Pinokio

BY Psy Eyes


Share with your friend now:
group-telegram.com/Psy_Eyes/1971

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Crude oil prices edged higher after tumbling on Thursday, when U.S. West Texas intermediate slid back below $110 per barrel after topping as much as $130 a barrel in recent sessions. Still, gas prices at the pump rose to fresh highs. Again, in contrast to Facebook, Google and Twitter, Telegram's founder Pavel Durov runs his company in relative secrecy from Dubai. In December 2021, Sebi officials had conducted a search and seizure operation at the premises of certain persons carrying out similar manipulative activities through Telegram channels. Telegram has become more interventionist over time, and has steadily increased its efforts to shut down these accounts. But this has also meant that the company has also engaged with lawmakers more generally, although it maintains that it doesn’t do so willingly. For instance, in September 2021, Telegram reportedly blocked a chat bot in support of (Putin critic) Alexei Navalny during Russia’s most recent parliamentary elections. Pavel Durov was quoted at the time saying that the company was obliged to follow a “legitimate” law of the land. He added that as Apple and Google both follow the law, to violate it would give both platforms a reason to boot the messenger from its stores. Meanwhile, a completely redesigned attachment menu appears when sending multiple photos or vides. Users can tap "X selected" (X being the number of items) at the top of the panel to preview how the album will look in the chat when it's sent, as well as rearrange or remove selected media.
from ru


Telegram Psy Eyes
FROM American