Telegram Group Search
Media is too big
VIEW IN TELEGRAM
Недавно была новость, что Comfy воркфлоу теперь можно конвертировать в интерфейс на Gradio и публиковать на Хаггинге. Но по отзывам народа такое решение забивает оперативку.

Вот вам альтернативный варик с преобразованием воркфлоу в мини-приложение на Glif. Если что, у них есть API.

Сайт
Подробнее про Glif
Твит
This media is not supported in your browser
VIEW IN TELEGRAM
Luma: добавили image-2-video для видеогенератора Ray2.

Позже в режим добавят начальный/конечный кейфреймы, расширение, и зацикливание видео.

Сейчас доступно владельцам Unlimited подписок. Другим раскатают на днях.

Сайт
Твит
This media is not supported in your browser
VIEW IN TELEGRAM
POV: нейронка с Civitai получает промт
Телега ещё на шаг ближе к функционалу ютуба. Обложки для видео, расшаривание с таймкодом, продолжение просмотра там, где остановился....

Осталось только монетизацию через рекламную сеть Telegram Ads подрубить, или за звёзды/TON со списанием пропорционально просмотру.

Ещё бы телега сама кропила и поджимала видосы под автовоспроизведение, было бы супер.

Сайт
This media is not supported in your browser
VIEW IN TELEGRAM
Прогресс примерно за 2 года.

Скоро ранние артефакты будут восприниматься с ностальгией, как VHS гличи, и появятся инструменты добавляющие такой "эффект старины". Я и сейчас нахожу нечто притягательное в упоротых GAN генерациях.
Хуньянь image-2-video, но не от них самих, а от SkyReels.

SkyReels-V1, это генератор видео в i2v и t2v вариантах с фокусом на людях в кадре. Зафайнтюнен на 10 млн видосов высокого качества. Используется 3D реконструкция тел для улучшения взаимодействия объектов в кадре. Выдаёт 544px960p длиной 97 кадров при 24 к/с.

Заточено под мульти-гпу сетапы (распределенка), и говорят SkyReelsInfer, их фреймворк с оптимизацией, на 58% быстрее по генерации, чем XDiT при использовании четырёх 4090. Хорошо параллелится и на 8 GPU, причём 8x4090 (159 сек) не сильно отстают от 8xA800 (107 сек) с 80 ГБ VRAM каждая.

На одной 4090 пишут можно запустить, если генерить не более 4 сек. Тогда на одно видео уйдёт почти 15 мин. Но нужен линукс и triton.

Пока я это писал Kijai уже начал ваять это всё под Comfy. Mochi также начинал: сначала 4xH100, а в итоге оптимизировали под работу на 4090.

На гитхабе ни слова как генерить на основе картинок. Скорее всего вместо текста указать адрес к файлу. Скормил код Perplexity, говорит есть возможность переключения типа ввода между text или img. Попробовал по его примеру вбить команды, не завелось. Набор "Собери сам", кароч.

Альтернативно у них есть сайт, который вчера лежал, а теперь отлёг. Одну генерацию дают потестить. Кота нормально повернул, геометрия ок, глаза уже не наклейки на очках, цепочка фактурная. Даже мех ощущается. Текст правда на майке залип, но это скорее всего потому что он наложился на водяной знак, который должен держаться стабильно.

Сам сайт прям копипаста Kling и Hailuo: есть генерация видео, картинок, липсинк. Однако есть режим Storyboard, позволяющий генерить фрагменты, которые потом можно связать и режим Generate Drama, где по шагам, сначала закидываешь идею (текст, картинки), потом генеришь, создаёшь персонажей, и затем уже ваяешь раскадровки на основе этого.

Сайт
Гитхаб
Хаггинг
Kijai
Light-a-video: смена освещения на видео.

Пока мы ждём, когда lllsviel выложит в паблик IC-Light v2, другие чуваки пришивают релайтер на основе IC-Light v1 к видео. Ещё там под капотом animatediff и CogVideoX.

Код есть, но с лёту не завёлся. Генерация идёт через вызов в командной строке нужного yaml файла в папке configs. Промт и настройки задаются как раз через yaml файл. Делайте его копию, меняйте название, и настраивайте всё под себя.

После установки по командам с гитхаба, при запуске оно пожаловалось на numpy 2. Perplexity говорит удаляй его и ставь версию ниже.

Сделал раз
pip uninstall numpy

и два
pip install "numpy<2.0"


Далее оно посетовало, на Pytorch и CUDA. Поставил всё отсюда
pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124

Вот теперь завелось и скачало все нужные модели для генерации.

Сам входной видос должен быть 8 к/с и 512х512. Его надо положить в папку input_animatediff для обычного релайта, или в input_animatediff_inpaint, если фон надо сгенерить. На одну генерацию уходит примерно 8 мин на 4090. На втором прогоне было уже 10 мин. Сжирает все 24 ГБ VRAM моментально.

Итоговое видео будет в папке output. Дальше, чтобы повысить разрешение кидаем это в апскелер а-ля Topaz, а фреймрейт повышаем через Flowframes или что-ещё.

Сайт
Гитхаб
2025/02/24 19:49:52
Back to Top
HTML Embed Code: