Telegram Group & Telegram Channel
Потестил CogStudio.

Это опенсорсный фреймворк от создателя Pinokio для генерации видео в разных режимах:
* text-2-video
* video-2-video
* image-2-video
* extend video

Под капотом китайская CogVideoX 2B / 5B. Возможно будет расширяться и Flux Video на выходе сюда тоже заедет.

В img-2-vid кадр держит консистентно, не кипит. Какое-то понимание мира вокруг и взаимодействия объектов между собой есть. Качество и детализацию не сильно зажёвывает.

На выходе 6 сек видео и гифка разрешением 740x480 в 6 fps. Есть встроенный апскейлер до 2880х1920, но он сильно смазывает детали, так что лучше использовать на чём-то вроде дальних планов, пейзажей, итд, а не на лицах крупняком. Альтернативно юзаем Topaz для апскейла и Flowframes для интерполяции кадров.

Промта слушается когда-как. Хорошо работает там, где объект более-менее статичен в центре и нужно анимировать фон, или наоборот, а также лёгкой имитации ручной съёмки. Тяжело даётся динамика: чем её требуется больше, тем модели сложнее. Частично можно компенсировать детальностью промта.

Контроль через сид, количество шагов, итд на месте. Но нужно завозить рульки типа Kling Motion Brush или DragNuwa.

Для улучшения промта опционально подрубается API от OpenAI. Хотя можно спокойно использовать опенсорсные мелкие модели типа ламы 3.1, qwen, phi, или кого ещё.

Из интересных плюшек:
* Сгенерированное видео можно послать в vid-2-vid, например для смены стиля или как указания движения объектам на новом видео.
* Или отправить видос на extend и расширить его не с конца, а с выбранного кадра, создавая ответвление. Правда с каждым последующим расширением качество будет падать.
* Generate forever на репите генерит видео по промту пока не остановишь. Может пригодиться если ушёл пить кофе/уснул, а когда вернулся у тебя уже есть вагон вариантов видео.

В txt-2-vid режиме 2B модель потребляет в районе 4-5 ГБ VRAM с частичной выгрузкой в RAM, и на видео уходит ~4 мин. Если отключить CPU offload, то скорость станет ~2 мин, но уже понадобится 18-19 ГБ VRAM.

5B модель в 24 ГБ VRAM уже не поместится и будет генерить только с выгрузкой в RAM. На 1 видео уже уйдёт ~10 мин. Качество картинки станет получше, но всё-равно пока так себе.

А вот в img-2-vid уже более годные результаты. Чем качественнее изначальный кадр, тем лучше видео на выходе. Закидаем свои картинки из Midjourney, Flux, SDXL, итд, вбиваем промт подетальнее и вперёд. Так как в этом режиме работает 5B модель и нет отключения CPU offload, то потребляется 5-7 ГБ VRAM остальное идёт в RAM, и на 1 видео в 50 шагов уходит ~10 минут.

Это конечно быстрее, чем на бесплатных тарифах Runway, Kling, Luma, итд ибо на них сейчас вообще не погенерить — только на платных. Но хотелось бы скорости. Пофиксят это + нарастят контроль с качеством, и будет гуд.

Гитхаб
Pinokio



group-telegram.com/Psy_Eyes/1972
Create:
Last Update:

Потестил CogStudio.

Это опенсорсный фреймворк от создателя Pinokio для генерации видео в разных режимах:
* text-2-video
* video-2-video
* image-2-video
* extend video

Под капотом китайская CogVideoX 2B / 5B. Возможно будет расширяться и Flux Video на выходе сюда тоже заедет.

В img-2-vid кадр держит консистентно, не кипит. Какое-то понимание мира вокруг и взаимодействия объектов между собой есть. Качество и детализацию не сильно зажёвывает.

На выходе 6 сек видео и гифка разрешением 740x480 в 6 fps. Есть встроенный апскейлер до 2880х1920, но он сильно смазывает детали, так что лучше использовать на чём-то вроде дальних планов, пейзажей, итд, а не на лицах крупняком. Альтернативно юзаем Topaz для апскейла и Flowframes для интерполяции кадров.

Промта слушается когда-как. Хорошо работает там, где объект более-менее статичен в центре и нужно анимировать фон, или наоборот, а также лёгкой имитации ручной съёмки. Тяжело даётся динамика: чем её требуется больше, тем модели сложнее. Частично можно компенсировать детальностью промта.

Контроль через сид, количество шагов, итд на месте. Но нужно завозить рульки типа Kling Motion Brush или DragNuwa.

Для улучшения промта опционально подрубается API от OpenAI. Хотя можно спокойно использовать опенсорсные мелкие модели типа ламы 3.1, qwen, phi, или кого ещё.

Из интересных плюшек:
* Сгенерированное видео можно послать в vid-2-vid, например для смены стиля или как указания движения объектам на новом видео.
* Или отправить видос на extend и расширить его не с конца, а с выбранного кадра, создавая ответвление. Правда с каждым последующим расширением качество будет падать.
* Generate forever на репите генерит видео по промту пока не остановишь. Может пригодиться если ушёл пить кофе/уснул, а когда вернулся у тебя уже есть вагон вариантов видео.

В txt-2-vid режиме 2B модель потребляет в районе 4-5 ГБ VRAM с частичной выгрузкой в RAM, и на видео уходит ~4 мин. Если отключить CPU offload, то скорость станет ~2 мин, но уже понадобится 18-19 ГБ VRAM.

5B модель в 24 ГБ VRAM уже не поместится и будет генерить только с выгрузкой в RAM. На 1 видео уже уйдёт ~10 мин. Качество картинки станет получше, но всё-равно пока так себе.

А вот в img-2-vid уже более годные результаты. Чем качественнее изначальный кадр, тем лучше видео на выходе. Закидаем свои картинки из Midjourney, Flux, SDXL, итд, вбиваем промт подетальнее и вперёд. Так как в этом режиме работает 5B модель и нет отключения CPU offload, то потребляется 5-7 ГБ VRAM остальное идёт в RAM, и на 1 видео в 50 шагов уходит ~10 минут.

Это конечно быстрее, чем на бесплатных тарифах Runway, Kling, Luma, итд ибо на них сейчас вообще не погенерить — только на платных. Но хотелось бы скорости. Пофиксят это + нарастят контроль с качеством, и будет гуд.

Гитхаб
Pinokio

BY Psy Eyes


Share with your friend now:
group-telegram.com/Psy_Eyes/1972

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In the United States, Telegram's lower public profile has helped it mostly avoid high level scrutiny from Congress, but it has not gone unnoticed. As the war in Ukraine rages, the messaging app Telegram has emerged as the go-to place for unfiltered live war updates for both Ukrainian refugees and increasingly isolated Russians alike. There was another possible development: Reuters also reported that Ukraine said that Belarus could soon join the invasion of Ukraine. However, the AFP, citing a Pentagon official, said the U.S. hasn’t yet seen evidence that Belarusian troops are in Ukraine. It is unclear who runs the account, although Russia's official Ministry of Foreign Affairs Twitter account promoted the Telegram channel on Saturday and claimed it was operated by "a group of experts & journalists." Given the pro-privacy stance of the platform, it’s taken as a given that it’ll be used for a number of reasons, not all of them good. And Telegram has been attached to a fair few scandals related to terrorism, sexual exploitation and crime. Back in 2015, Vox described Telegram as “ISIS’ app of choice,” saying that the platform’s real use is the ability to use channels to distribute material to large groups at once. Telegram has acted to remove public channels affiliated with terrorism, but Pavel Durov reiterated that he had no business snooping on private conversations.
from de


Telegram Psy Eyes
FROM American