Telegram Group & Telegram Channel
OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models

Так, вы будете смеяться, но у нас новый и реально бомбоносный видеогенератор.

Тикток выкатил продолжение своих разработок Loopy, о котором я писал в сентябре в обзоре нейроаватаров https://www.group-telegram.com/sa/cgevent.com/9365

Два очень крутых момента:
1. Заточен на генерации людей, причем не только аватаров, но и различные виды портретной съемки (лицо крупным планом, портрет, половина тела, полное тело). Обрабатывает взаимодействие человека с объектами и сложные позы тела, а также адаптируется к различным стилям изображения.

2. И самое главное, на входе у него не только текст и картинка (как мы привыкли), но полный набор вот таких модальностей: текст, аудио(да, звук на вход для липсинка), картинка, другое видео, и внимание - позы. Типа контролНет, который забирается с других видео или картинок. Причем внутри есть развесовка этих разных входных сигналов.

В основе лежит видеогенератор SeaWeed (text-to-video), от Тиктока же, на которого навалили Omni-Conditions Training Strategy - обучение на разных входных сигналах.

OmniHuman model utilizes a causal 3DVAE to project videos at their native size into a latent space and employs flow matching as the training objective to learn the video denoising process. We employ a three-stage mixed condition post-training approach to progressively transform the diffusion model from a general text-to-video model to a multi-condition human video generation model. These stages sequentially introduce the driving modalities of text, audio, and pose according to their motion correlation strength, from weak to strong, and balance their training ratios.

Поглядите на сайт проекта, тьма видосов. Там и певцы, и на дуде игрецы, и махальщики руками.
Но кода нет. Код Loopy и CyberHost тоже не появился. Что наводит на нехорошие мысли.

Фарш тут: https://omnihuman-lab.github.io/

Спасибо Игорю за наводку.

@cgevent



group-telegram.com/cgevent/11037
Create:
Last Update:

OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models

Так, вы будете смеяться, но у нас новый и реально бомбоносный видеогенератор.

Тикток выкатил продолжение своих разработок Loopy, о котором я писал в сентябре в обзоре нейроаватаров https://www.group-telegram.com/sa/cgevent.com/9365

Два очень крутых момента:
1. Заточен на генерации людей, причем не только аватаров, но и различные виды портретной съемки (лицо крупным планом, портрет, половина тела, полное тело). Обрабатывает взаимодействие человека с объектами и сложные позы тела, а также адаптируется к различным стилям изображения.

2. И самое главное, на входе у него не только текст и картинка (как мы привыкли), но полный набор вот таких модальностей: текст, аудио(да, звук на вход для липсинка), картинка, другое видео, и внимание - позы. Типа контролНет, который забирается с других видео или картинок. Причем внутри есть развесовка этих разных входных сигналов.

В основе лежит видеогенератор SeaWeed (text-to-video), от Тиктока же, на которого навалили Omni-Conditions Training Strategy - обучение на разных входных сигналах.

OmniHuman model utilizes a causal 3DVAE to project videos at their native size into a latent space and employs flow matching as the training objective to learn the video denoising process. We employ a three-stage mixed condition post-training approach to progressively transform the diffusion model from a general text-to-video model to a multi-condition human video generation model. These stages sequentially introduce the driving modalities of text, audio, and pose according to their motion correlation strength, from weak to strong, and balance their training ratios.

Поглядите на сайт проекта, тьма видосов. Там и певцы, и на дуде игрецы, и махальщики руками.
Но кода нет. Код Loopy и CyberHost тоже не появился. Что наводит на нехорошие мысли.

Фарш тут: https://omnihuman-lab.github.io/

Спасибо Игорю за наводку.

@cgevent

BY Метаверсище и ИИще


Share with your friend now:
group-telegram.com/cgevent/11037

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"This time we received the coordinates of enemy vehicles marked 'V' in Kyiv region," it added. Pavel Durov, Telegram's CEO, is known as "the Russian Mark Zuckerberg," for co-founding VKontakte, which is Russian for "in touch," a Facebook imitator that became the country's most popular social networking site. The last couple days have exemplified that uncertainty. On Thursday, news emerged that talks in Turkey between the Russia and Ukraine yielded no positive result. But on Friday, Reuters reported that Russian President Vladimir Putin said there had been some “positive shifts” in talks between the two sides. Stocks closed in the red Friday as investors weighed upbeat remarks from Russian President Vladimir Putin about diplomatic discussions with Ukraine against a weaker-than-expected print on U.S. consumer sentiment. "We're seeing really dramatic moves, and it's all really tied to Ukraine right now, and in a secondary way, in terms of interest rates," Octavio Marenzi, CEO of Opimas, told Yahoo Finance Live on Thursday. "This war in Ukraine is going to give the Fed the ammunition, the cover that it needs, to not raise interest rates too quickly. And I think Jay Powell is a very tepid sort of inflation fighter and he's not going to do as much as he needs to do to get that under control. And this seems like an excuse to kick the can further down the road still and not do too much too soon."
from sa


Telegram Метаверсище и ИИще
FROM American