Пишут, что Veo3 раскатали на весь мир, включая Европу (150+ стран).
Но есть моменты:
- это Veo3 Fast (а не Veo3 Quality)
- только для подписчиков плана Gemini Pro
- Flow по прежнему недоступен (в Европе по крайней мере)
- Генерации СО ЗВУКОМ (несмотря на Veo3 Fast)
- доступно пока только в gemini.google.com - внизу жмем кнопку Video
- три генерации в день (по крайней мере у меня - You can generate 2 more videos today)
Проверил на промпте из предыдущего поста. Минимакс, конечно уделывает Veo3. Но есть звук.
@cgevent
Но есть моменты:
- это Veo3 Fast (а не Veo3 Quality)
- только для подписчиков плана Gemini Pro
- Flow по прежнему недоступен (в Европе по крайней мере)
- Генерации СО ЗВУКОМ (несмотря на Veo3 Fast)
- доступно пока только в gemini.google.com - внизу жмем кнопку Video
- три генерации в день (по крайней мере у меня - You can generate 2 more videos today)
Проверил на промпте из предыдущего поста. Минимакс, конечно уделывает Veo3. Но есть звук.
@cgevent
Forwarded from CGIT_Vines (Marvin Heemeyer)
This media is not supported in your browser
VIEW IN TELEGRAM
Показали демку Mirage, и это довольно интересная демка, отличающаяся от предыдущих нейро-движков тем, что вы можете менять окружение через текстовый запрос. То есть text2UGC, только это не совсем User, т.к. контент генерирует ИИ.
Еще одно преимущество — это сессии, которые могут длиться 10 и более минут, что было невозможно на прошлых поколениях, которые разваливались в течение десятка секунд. Правда, я заметил одну забавную особенность: симуляции всё равно внезапно сбоят, выдавая какую-то рандомную сгенерированную тётку рядом с тачкой — на манер NFS.🤡
Попробовать демки, Форзы и ГТА тут
Еще одно преимущество — это сессии, которые могут длиться 10 и более минут, что было невозможно на прошлых поколениях, которые разваливались в течение десятка секунд. Правда, я заметил одну забавную особенность: симуляции всё равно внезапно сбоят, выдавая какую-то рандомную сгенерированную тётку рядом с тачкой — на манер NFS.
Попробовать демки, Форзы и ГТА тут
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
UDIO Sessions: мертвые заговорили
После месяцев молчания, Юдио наконец-то выкатила новую фичу.
Это таймлайн для редактирования ваших гениальных аудиогенераций.
Продуктово - очень правильный ход. Редактирование аудио без колбасок да еще и в вебе - это прошлыйвек год.
"Cессии" представляют новый таймлайн для редактирования треков, так что вы можете создавать треки с большей точностью и меньше зависеть от галлюцинаций ИИ. В настоящее время вы можете начать Sessions для продления(Extending ) или редактирования(Edit) ваших треков, а в скором времени появятся и другие функции.
Сессия открывается через контекстное меню для любой песни в вашей библиотеке: Создать > Начать сессию.
https://www.udio.com/create
@cgevent
После месяцев молчания, Юдио наконец-то выкатила новую фичу.
Это таймлайн для редактирования ваших гениальных аудиогенераций.
Продуктово - очень правильный ход. Редактирование аудио без колбасок да еще и в вебе - это прошлый
"Cессии" представляют новый таймлайн для редактирования треков, так что вы можете создавать треки с большей точностью и меньше зависеть от галлюцинаций ИИ. В настоящее время вы можете начать Sessions для продления(Extending ) или редактирования(Edit) ваших треков, а в скором времени появятся и другие функции.
Сессия открывается через контекстное меню для любой песни в вашей библиотеке: Создать > Начать сессию.
https://www.udio.com/create
@cgevent
Media is too big
VIEW IN TELEGRAM
Нейропрожарка
В этот раз Виталик превзошел сам себя в изготовлении поздравительных клипов. Про "пнуть кошку" и вообше сцены насилия, читайте в конце, забавно.
Сюжетный клип на ДР знакомой.
Из вводных было: что она любит Рахманинова, Jamiroquai, Рамштайн и Muse.
30-40 часов ушло.
Детали:
Текст пишу сам, оформляю его для генератора песен Suno (разметка).
Трек писался в Suno, на базе описания манеры и голоса исполнителя, чей вокал мне был нужен, для этого попросил Deepseek сделать промпт, описывающий голос и манеру исполнения. То же со стилем группы, но попадание не всегда. Далее методом доработок и кучи (около сотни версий) попыток отобрал нужный вариант и доработал точечно в редакторе исправив пару корявых фраз. Выбрал в итоге 2 варианта, и долго не мог решить, на какой делать клип :)
То же сделал и для описания музыки.
Сценарий писал сам, меняя в процессе работы, если утыкался в сцену, которую сложно сделать.
Для создания базового Арта перед аниимацией скармливал ChatGPT фото человека, описывал промпт примерно так:
"сделай фотореалистичное изображение, формат 2х3 мужчина в джинсах, майке стоит у открытого окна и выбрасывает в него толстые пачки денег. Вокруг офисное помещение, добейся портретного сходства"
Ещё использовал Midjourney для генерации людей с нужными лицами. Но это самая муторная часть. Многие сети борются с дипфейками, и не дают сделать прямое сходство.
Всех участников клипа, генерил в разных чатах ChatGPT 4o, чтобы не мешать контекст лиц.
В анимации в Kling 2.1 использовал внутренний Deepseek, который анализировал залитое фото и предлагал промпт. Иногда правил его ручками, для нужной анимации.
Немного использовал для анимаций Minimax, но Kling 2.1 по прежнему фаворит, если нужно из статичной картинки сделать видео.
Hedra - брал кусочки музыки, где был нужен липсинк. Там все просто. На входе голова перса и кусок музыки с текстом, и на выходе попадание движения губ в текст.
Отобранную анимацию собирал ручками в видео редакторе, под выбранный трек.
Из забавного, самым сложным в работе над клипом оказалось:
- Пнуть кошку, из картинки ни один редактор не дал сделать такое видео - насилие, незя. Пришлось делать «резкий прыжок кота с места за край экрана» - намучился и с этим
- Сгенерить известного исполнителя «сделай мне вот такого с лицом такого-то» - нарушение прав, обходными путями все
- Точное повторение лица через он-лайн сервисы (борьба с дипфейками), Midjourney с 25 мая ужесточила политику например
- Если персонаж в цепях, в веревках - сложности для анимации такой сцены, насилие. Помогли китайские Ai там пока чуть проще
- Вставить кляп с красным шаром (как в Криминальном чтиво у Брюса Виллиса - незя, даже фотку такую не делают)
- обмотать цепь вокруг руки, туловища нельзя, а вот вокруг ноги - можно. ХЗ почему.
@cgevent
В этот раз Виталик превзошел сам себя в изготовлении поздравительных клипов. Про "пнуть кошку" и вообше сцены насилия, читайте в конце, забавно.
Сюжетный клип на ДР знакомой.
Из вводных было: что она любит Рахманинова, Jamiroquai, Рамштайн и Muse.
30-40 часов ушло.
Детали:
Текст пишу сам, оформляю его для генератора песен Suno (разметка).
Трек писался в Suno, на базе описания манеры и голоса исполнителя, чей вокал мне был нужен, для этого попросил Deepseek сделать промпт, описывающий голос и манеру исполнения. То же со стилем группы, но попадание не всегда. Далее методом доработок и кучи (около сотни версий) попыток отобрал нужный вариант и доработал точечно в редакторе исправив пару корявых фраз. Выбрал в итоге 2 варианта, и долго не мог решить, на какой делать клип :)
То же сделал и для описания музыки.
Сценарий писал сам, меняя в процессе работы, если утыкался в сцену, которую сложно сделать.
Для создания базового Арта перед аниимацией скармливал ChatGPT фото человека, описывал промпт примерно так:
"сделай фотореалистичное изображение, формат 2х3 мужчина в джинсах, майке стоит у открытого окна и выбрасывает в него толстые пачки денег. Вокруг офисное помещение, добейся портретного сходства"
Ещё использовал Midjourney для генерации людей с нужными лицами. Но это самая муторная часть. Многие сети борются с дипфейками, и не дают сделать прямое сходство.
Всех участников клипа, генерил в разных чатах ChatGPT 4o, чтобы не мешать контекст лиц.
В анимации в Kling 2.1 использовал внутренний Deepseek, который анализировал залитое фото и предлагал промпт. Иногда правил его ручками, для нужной анимации.
Немного использовал для анимаций Minimax, но Kling 2.1 по прежнему фаворит, если нужно из статичной картинки сделать видео.
Hedra - брал кусочки музыки, где был нужен липсинк. Там все просто. На входе голова перса и кусок музыки с текстом, и на выходе попадание движения губ в текст.
Отобранную анимацию собирал ручками в видео редакторе, под выбранный трек.
Из забавного, самым сложным в работе над клипом оказалось:
- Пнуть кошку, из картинки ни один редактор не дал сделать такое видео - насилие, незя. Пришлось делать «резкий прыжок кота с места за край экрана» - намучился и с этим
- Сгенерить известного исполнителя «сделай мне вот такого с лицом такого-то» - нарушение прав, обходными путями все
- Точное повторение лица через он-лайн сервисы (борьба с дипфейками), Midjourney с 25 мая ужесточила политику например
- Если персонаж в цепях, в веревках - сложности для анимации такой сцены, насилие. Помогли китайские Ai там пока чуть проще
- Вставить кляп с красным шаром (как в Криминальном чтиво у Брюса Виллиса - незя, даже фотку такую не делают)
- обмотать цепь вокруг руки, туловища нельзя, а вот вокруг ноги - можно. ХЗ почему.
@cgevent
Forwarded from Нейронавт | Нейросети в творчестве
This media is not supported in your browser
VIEW IN TELEGRAM
DoppleDanger
Замена лица в реальном времени с клонированием голоса.
До 20 fps на RTX3090, это выше чем DeepLiveCam
Под капотом не inswapper128 вроде, но навряд ли что-то лучше - какой-то ReSwapper. Впрочем в репо последнего есть сравнение, посмотрите
#realtime #faceswap #deepfake
Замена лица в реальном времени с клонированием голоса.
До 20 fps на RTX3090, это выше чем DeepLiveCam
Под капотом не inswapper128 вроде, но навряд ли что-то лучше - какой-то ReSwapper. Впрочем в репо последнего есть сравнение, посмотрите
#realtime #faceswap #deepfake
Veo3 Quality и Veo3 Fast
Промпт: A hyper-realistic cityscape rapidly folds upwards from the horizon like a book closing, skyscrapers twisting mid-air, cars still moving on vertical roads, clouds bending with the curvature — all in one continuous, breathtaking shot
Fast строит домик, а Quality лучше слушается промпта и действительно закрывает книжку, как испрошено.
Quality делал во Flow
Ну за Inception!
@cgevent
Промпт: A hyper-realistic cityscape rapidly folds upwards from the horizon like a book closing, skyscrapers twisting mid-air, cars still moving on vertical roads, clouds bending with the curvature — all in one continuous, breathtaking shot
Fast строит домик, а Quality лучше слушается промпта и действительно закрывает книжку, как испрошено.
Quality делал во Flow
Ну за Inception!
@cgevent
Veo3 Quality и Veo3 Fast
Как подводка к следующей нейропрожарке.
Промпт: Advertising-style food video of a chocolate cake slice arranged on a rustic table, with strawberries floating above in mid-air and a splash of chocolate ganache frozen in motion. High-resolution video manipulation with selective soft focus, clean negative space for text, dramatic lighting, and crisp detail.
Тут сами все увидите. Quality слушает промпт. Fast просто торопится.
Quality делал через Flow и штатовский ВПН. У меня подписка Про.
@cgevent
Как подводка к следующей нейропрожарке.
Промпт: Advertising-style food video of a chocolate cake slice arranged on a rustic table, with strawberries floating above in mid-air and a splash of chocolate ganache frozen in motion. High-resolution video manipulation with selective soft focus, clean negative space for text, dramatic lighting, and crisp detail.
Тут сами все увидите. Quality слушает промпт. Fast просто торопится.
Quality делал через Flow и штатовский ВПН. У меня подписка Про.
@cgevent
Media is too big
VIEW IN TELEGRAM
Нейропрожарка.
Игорь забабахал рекламный ролик.
Отсняты только кадры с персонажами на лестнице в начале и конце. Остальное - генерации на натренированных LoRA. Midjourney, затем Comfyui Flux локально для тренировки LoRA и адаптации персонажей и инпайнтов, затем апскелы с добавлением деталей в Magnific, затем композ в Photoshop статичных изображений, потом генерации видео в Kling, потом апскейл в Topaz, потом цветокоррекция в DaVinchi, потом финальный композ. Полагаю, не оригинальный пайплайн)))
@cgevent
Игорь забабахал рекламный ролик.
Отсняты только кадры с персонажами на лестнице в начале и конце. Остальное - генерации на натренированных LoRA. Midjourney, затем Comfyui Flux локально для тренировки LoRA и адаптации персонажей и инпайнтов, затем апскелы с добавлением деталей в Magnific, затем композ в Photoshop статичных изображений, потом генерации видео в Kling, потом апскейл в Topaz, потом цветокоррекция в DaVinchi, потом финальный композ. Полагаю, не оригинальный пайплайн)))
@cgevent