This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Помните огнищенские примеры анимации лиц по одной фото от Алибабищенко и Микрософтченко?
Добавил их в шапку поста.
Аватары и говорящие головы на основе традиционного 3Д обречены за непреодолимую зловещую долину, а вот нейроаватары на основе картинок и видео развиваются очень быстро.
Но.
Ни Алибаба, ни Микрософт не выкладывают код.
А вот Тикточек - выкладывает.
Держите ответочку от Тиктока, пусть по качеству там еще есть вопросы (связанные, скорее, с апскейлом и блюром), но в работе озвучен ОЧЕНЬ интересный момент.
На входе в таких решениях обычно есть картинка, звук, возможно какая-то разметка, иногда глубина, информация о позе (часть из этого детектится автоматически). Так вот, все эти входные "сигналы" имеют разный вес, и часто звук "забивается" жесткой позой или другим параметром. А тут авторы научились балансировать сигналы между собой, чтобы варьировать "вольность" следования звуку.
И самое главное - бахнули код.
В шапке примеры с разным влиянием звука на финальное видео.
Можно разводить хозяйство локально.
На гитхабе внизу приписка про коммерческое использование..
https://tenvence.github.io/p/v-express/
https://github.com/tencent-ailab/V-Express/
Добавил их в шапку поста.
Аватары и говорящие головы на основе традиционного 3Д обречены за непреодолимую зловещую долину, а вот нейроаватары на основе картинок и видео развиваются очень быстро.
Но.
Ни Алибаба, ни Микрософт не выкладывают код.
А вот Тикточек - выкладывает.
Держите ответочку от Тиктока, пусть по качеству там еще есть вопросы (связанные, скорее, с апскейлом и блюром), но в работе озвучен ОЧЕНЬ интересный момент.
На входе в таких решениях обычно есть картинка, звук, возможно какая-то разметка, иногда глубина, информация о позе (часть из этого детектится автоматически). Так вот, все эти входные "сигналы" имеют разный вес, и часто звук "забивается" жесткой позой или другим параметром. А тут авторы научились балансировать сигналы между собой, чтобы варьировать "вольность" следования звуку.
И самое главное - бахнули код.
В шапке примеры с разным влиянием звука на финальное видео.
Можно разводить хозяйство локально.
На гитхабе внизу приписка про коммерческое использование..
https://tenvence.github.io/p/v-express/
https://github.com/tencent-ailab/V-Express/
group-telegram.com/cgevent/8479
Create:
Last Update:
Last Update:
Помните огнищенские примеры анимации лиц по одной фото от Алибабищенко и Микрософтченко?
Добавил их в шапку поста.
Аватары и говорящие головы на основе традиционного 3Д обречены за непреодолимую зловещую долину, а вот нейроаватары на основе картинок и видео развиваются очень быстро.
Но.
Ни Алибаба, ни Микрософт не выкладывают код.
А вот Тикточек - выкладывает.
Держите ответочку от Тиктока, пусть по качеству там еще есть вопросы (связанные, скорее, с апскейлом и блюром), но в работе озвучен ОЧЕНЬ интересный момент.
На входе в таких решениях обычно есть картинка, звук, возможно какая-то разметка, иногда глубина, информация о позе (часть из этого детектится автоматически). Так вот, все эти входные "сигналы" имеют разный вес, и часто звук "забивается" жесткой позой или другим параметром. А тут авторы научились балансировать сигналы между собой, чтобы варьировать "вольность" следования звуку.
И самое главное - бахнули код.
В шапке примеры с разным влиянием звука на финальное видео.
Можно разводить хозяйство локально.
На гитхабе внизу приписка про коммерческое использование..
https://tenvence.github.io/p/v-express/
https://github.com/tencent-ailab/V-Express/
Добавил их в шапку поста.
Аватары и говорящие головы на основе традиционного 3Д обречены за непреодолимую зловещую долину, а вот нейроаватары на основе картинок и видео развиваются очень быстро.
Но.
Ни Алибаба, ни Микрософт не выкладывают код.
А вот Тикточек - выкладывает.
Держите ответочку от Тиктока, пусть по качеству там еще есть вопросы (связанные, скорее, с апскейлом и блюром), но в работе озвучен ОЧЕНЬ интересный момент.
На входе в таких решениях обычно есть картинка, звук, возможно какая-то разметка, иногда глубина, информация о позе (часть из этого детектится автоматически). Так вот, все эти входные "сигналы" имеют разный вес, и часто звук "забивается" жесткой позой или другим параметром. А тут авторы научились балансировать сигналы между собой, чтобы варьировать "вольность" следования звуку.
И самое главное - бахнули код.
В шапке примеры с разным влиянием звука на финальное видео.
Можно разводить хозяйство локально.
На гитхабе внизу приписка про коммерческое использование..
https://tenvence.github.io/p/v-express/
https://github.com/tencent-ailab/V-Express/
BY Метаверсище и ИИще
Share with your friend now:
group-telegram.com/cgevent/8479