Telegram Group Search
Veo3: Настолько ли всё круто?

Ну что, насмотревшись до тошноты сгенерированных "Street interview" на Veo3, пора и со своей колокольни написать о том, что удалось накопать и увидеть самому. Сам пока не пользовался, так как жаба душит, Google предлагает 2 плана на выбор:

🟠Google AI Pro за $19.99/мес, за который Вам насыпят всего лишь 1000 кредитсов, которых хватит всего на 10 генераций (одна генерация Veo3 стоит 100 кредитсов да). Если Вы активно работаете с видео, то понимаете, что этого едва хватит на побаловаться;

🟠Google AI Ultra за $249.99/мес на 12,500 кредитсов, это конечно лучше, но всё-равно сомнительно, плюс различные плюхи и только на этом плане доступна функция "Ingredients" — возможность закинуть в промпт картинки различных элементов и Veo3 это всё попытается объединить в сцену на основе Вашего запроса.

Кино в один клик?
Нет. Генерируются видео по классике отдельными кусочками до 8 секунд, но есть таймлайн, на который Вы можете закинуть сгенерированные сцены и там уже как в классическом редакторе их расставлять, подрезать и удлинять, догенерировав доп тайминг (смотрите официальную демонстрацию). Ну, давайте чётко по плюсам и минусам.

Плюсы:
🟠Классная реалистичная анимация и физика;
🟠Мимика (липсинк) в динамике выглядит убедительно и достаточно качественно, голоса звучат естественно;
🟠Отмечают прекрасное понимание промптов, прописывайте детали максимально по всему, что и как должно быть и происходить в сцене, "простым" понятным языком. Советуют юзать ChatGPT как промпт-инженера для огромных детальных промптов, с последующим редактированием вручную, как Вам необходимо;
🟠Саунд дизайн и диалоги на месте (главное не забыть переключиться именно на Veo3), всё прописывается в одном промпте с указанием какой персонаж что говорит, каким тоном и с каким настроением. То же самое со звуком. Вот тут есть небольшой базовый гайд, но советую посмотреть примеры и промпты к ним на странице DeepMind (листайте чуть ниже до примеров) и конкретные примеры у этого чувака в Твиттере;
🟠Помимо английского языка, русский язык и речь получаются отлично, чуваки проверили, насчёт других языков — вопрос;
🟠Хорошо держит эстетику из генерации в генерацию, если достаточно подробно всё расписать.

Минусы:
🟠Цена и лимиты;
🟠Мазнявость деталей никуда не делась и мыльное качество даже на апскейле 1080p;
🟠Анимация хоть и годная, но всё-равно в движениях присутствует вот эта странная синтетическая "эластичность";
🟠Консистентность персонажей довольно большая проблема для разных сцен, но таки можно сохранить консистентность, если генерить сцены на таймлайне как монтаж, советую почитать вот этот гайд для этого;
🟠"Ingredients" даёт достаточно слабые результаты, лучше пользоваться пока что text-to-video;
🟠Пресеты для управления камерой есть, но лучше прописывать движение и позицию камеры самим в промпте;
🟠Veo3 не поддерживает функцию ключевых кадров (оно же image-to-video), Вас автоматически переключит на модель Veo2;
🟠Разумеется, главный минус, что не в каждой стране оно доступно и тут только искать или покупать лыжи для окольных путей.

В общем, инструмент достаточно перспективный, но пока очень сырой и очень дорогой. Несколько примеров прикрепил к посту. Есть свои примеры — кидайте в комменты.

Кто дочитал этот пост до конца, вот Вам небольшой бонус. Тут чувак закинул видео, как можно получить себе студенческую безлимитную подписку на Google AI Pro аж на 15 месяцев бесплатно (но всё-равно нужна банковская карта США). Комменты разные, у кого-то получилось, у кого-то нет. Попробуйте, мало ли.

😳 BLACKTRACED
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Тестирую Veo3

Публикую то, на что хватило мне 1000 кредитсов, чего, повторюсь, невероятно мало для производства какого-то качественного осмысленного и нарративного контента, да ещё и на постоянной основе.

Если совсем кратко — да, модель крутая, но по-большому счёту это всё тот же непредсказуемый мазнявый генератив, как и любой другой сейчас на рынке. Апскейл до 1080p (нативное качество генераций 720p) довольно слабый, артефакты и мазню он лишь подчёркивает. Суперского понимания промптов особо не заметил, но как бы да — чем детальнее будете расписывать каждую мелочь, тем больше вероятность успешного результата.

По моему тесту. Оцените сами, насколько Veo3 не идеален: собаки слипаются, у деда ноги заплетаются, в каких-то деталях присутствуют непонятные движения объектов (ворота открываются сами), во втором шоте бобина на земле крутится сама по себе, хотя в промпт я прописывал специально, что магнитофон не работает. В финальной сцене липсинк вообще отсутствует. Много брака. То, как работает генерация на таймлайне (продолжение сцен, смена ракурса и т.д.) вообще не понравилось.

Veo3 надо качать в сторону img-2-video, это всё-таки даст больше творческого контроля над результатом и над консистентностью персонажей, эстетики и всего остального. Очень трудно работать чисто на текстовых промптах вслепую.

Оценить, как работает у Veo3 img-2-video, можно вот в этом видосе. Чувак решил пожертвовать хреновой тучей кредитсов, чтобы мы убедились: такой крутой динамики нету и в целом анимация достаточно унылая, уровня Gen-3.

Как-то так.

😳 BLACKTRACED
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Veo3 умеет в VR/360° видео

Пользователь Henry Daubrez поделился своим случайным открытием у себя на странице в X: оказывается, Veo3 умеет генерировать моноскопическое панорамное 360-видео.

Для этого в промпт нужно буквально прописать "360° video". Это даст Вам сырую заготовку, в которую придётся зашить правильную метадату, чтобы можно было крутить мышкой камеру и осматриваться.

Генри для этого использовал ExifTool, чтобы в MP4-файл прописать нужные XMP-теги и после этого видео автоматически распозналось (напр. у автора в VLC плеере) как 360°/VR и стало интерактивно просматриваться. Как там и чего правильно прописывать Генри говорит — просто спросите у ChatGPT, там ничего сложного нету.

Автор отмечает, что есть косяки: во втором видео можно увидеть чёрный круг наверху, это из-за того, что порой Veo3 генерит видео с чёрными полосами.

Очень-очень любопытно!

😳 BLACKTRACED
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Luma AI дропнули Modify Video

Luma наконец-то раскачались и выкатили свой рестайл video-2-video, который зашили в Ray2. Судя по сравнениям результатов, работает лучше, чем у Runway.

Новый инструмент позволяет изменять уже отснятые и сгенерированные видео, заменяя окружение, объекты, стили, текстуры и персонажей, при этом стараясь сохранить все движения: и камеры, и героев, и липсинк.

Modify Video предлагает авторам управлять результатом загружая своё изображение в качестве референса по стилю, но также можно описать стиль и текстовым промптом. Работает с тремя пресетами на выбор, которые управляются удобным ползунком "Strength", переключая их автоматически:

🟠Adhere — минимальные изменения, сохраняет внешний вид и структуру оригинала, больше фокусируясь на ретекстурировании;
🟠Flex — гибкий баланс: оставляет узнаваемость оригинала, но позволяет креативно переосмыслить сцену. Подойдёт для изменений с сохранением ключевых элементов;
🟠Reimagine — говорит само за себя, максимальное преображение, с возможностью полного пересоздания локаций и персонажей.

Нативное качество генераций 720p с максимальным таймингом 10 секунд. Кучу наглядных примеров можно посмотреть в блоге разрабов (советую).

😳 BLACKTRACED
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
HeyGen зарелизили Avatar IV

Новая модель для генерации говорящих голов получила жирное обновление, теперь с Avatar IV можно делать не только убедительный липсинк и мимику, но и вполне неплохую кастомную жестикуляцию, которую Вы сами задаёте промптом.

Речь персонажей можно прописать текстом и выбрать голос из библиотеки, либо загрузить свой аудиофайл. Русский язык поддерживается. Максимальный тайминг — 60 секунд (по крайней мере так написано у разрабов на странице в X, при этом на бесплатном плане можно генерить видео длиной до 3-х минут).

Доступно для всех пользователей бесплатно, даже для новых. Но как и полагается, есть ограничения для фришных юзеров, одни из них — можно генерить всего 3 видео и потолок качества 720p (полный список смотрите на сайте).

app.heygen.com

😳 BLACKTRACED
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
ElevenLabs выпустили альфу новой модели Eleven v3

Вдогонку к предыдущему посту. Один из топовых генераторов речи ElevenLabs представили публичную альфу Eleven v3: теперь можно генерировать экспрессивные монологи и диалоги с помощью тегов в промпте, в ту часть, где Вам это необходимо. Теги прописываются в квадратные скобки: "[sad] [angry] [happily]" или "[excited] [sighs] [laughing] [whispers]" и т.д.

Поддерживаются более 70 языков, включая русский и белорусский. Сейчас публичная альфа, но позже в этом месяце будет доступно по 80% скидке. API для Eleven v3 завезут позже.

elevenlabs.io

😳 BLACKTRACED
Please open Telegram to view this post
VIEW IN TELEGRAM
Дождались: В Midjourney можно посмотреть первые наработки по видео!

MJ решили ворваться на рынок видео генераций и, как обычно это происходит перед релизом — команда устраивает Rating Party на официальном сайте, где можно посмотреть разные образцы и проголосовать за лучший вариант, чтобы помочь разрабам "отсеять мусор".

Важное примечание: данные примеры не отображают финальное качество модели, это лишь тестовые образцы (их стандартный дисклеймер, уверен, на релизе будет плюс-минус то же самое качество).

Прикрепил несколько примеров, которыми юзеры поделились в X. Если у Вас есть активная подписка, заходите на сайт, принимайте участие в голосовании:

midjourney.com/rank-video

😳 BLACKTRACED
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
BLACKTRACED
Дождались: В Midjourney можно посмотреть первые наработки по видео! MJ решили ворваться на рынок видео генераций и, как обычно это происходит перед релизом — команда устраивает Rating Party на официальном сайте, где можно посмотреть разные образцы и проголосовать…
This media is not supported in your browser
VIEW IN TELEGRAM
Видеомодель Midjourney на старте будет среднего качества и скорее всего будет доступна не для всех

На каждой сессии Office Hours, когда речь заходит о видео, основатель Midjourney Дэвид Хольц опасается, что их серваки могут не справиться: видеомодель может потребовать в 2-3 раза больше ресурсов, чем текущая нагрузка.

Неоднократно Хольц говорил про "осторожное" выкатывание, что на старте доступ будет только у годовых подписчиков или пользователей Mega-плана, но при этом, стратегия запуска нацелена на широкую доступность, несмотря на ограничения серверных мощностей. Подробности по модели:

🟠Внутренние тесты показывают крайне позитивные результаты;
🟠Стоимость генераций на старте будет "рискованной" (для разрабов), со временем может подорожать;
🟠На старте запланировано среднее качество — баланс между нормальной картинкой и доступностью;
🟠Режима Relax на старте не будет из-за ограничений серверов;
🟠Только image-to-video, text-to-video прикрутят потом;
🟠Работает с изображениями из V7, V6, V5, V4 и Niji;
🟠Возможность управления камерой точно будет, но так и непонятно, на старте или позже;
🟠Функция продления видео запланирована как приоритетная после запуска;
🟠Более дешёвые серверы = более широкий доступ на старте, на данный момент команда ведёт переговоры с тремя различными провайдерами серверов, всё будет зависеть от стоимости услуг.

Модель специально под Niji планируют выкатить в течение месяца после запуска основной видеомодели. Она будет лучше подходить конкретно для аниме-стиля из-за более жёсткой, заранее обученной эстетики и вероятно будет сразу поддерживать text-to-video.

Ну, ждём.

😳 BLACKTRACED
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/06/13 21:40:28
Back to Top
HTML Embed Code: