Telegram Group & Telegram Channel
This media is not supported in your browser
VIEW IN TELEGRAM
🔥EMU VIDEO:
Factorizing Text-to-Video Generation by Explicit Image Conditioning


Сегодня сразу два больших релиза от моих коллег из Meta GenAI! Один из них — опубликовали модель EMU-Video.

Новая модель строится на базе Text-2-image модели Emu, и теперь может генерить 4-секундные видео 512x512 в 16 fps.

Архитектура, грубо:
мы берем pre-trained 2.7B Emu для генерации text-2-image, замораживаем Unet и добавляем в него дополнительные аттеншен слои, которые работают вдоль врменной оси. И тренируем только доп слои, на генерацию видео по тексту.

На вход даём либо картинку + текст, либо только текст (в этом случае картинку генерим с помощью Emu). На выходе — 65 фрейма 512x512.

Если погрузиться в детали, то сначала генерится 16 фреймов, а затем ещё одна модель с такой же архитектурой интерполирует видео до 65 фреймов.

Это теперь SOTA в text-2-video:
✔️ Emu-Video vs Gen-2: победа Emu-Video в 78.5% случаев
✔️Emu-Video vs Pika - победа в 98.5% случаев по оценке кожаных разметчиков.

Сайт проекта
Демо-результаты

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/ai_newz/2310
Create:
Last Update:

🔥EMU VIDEO:
Factorizing Text-to-Video Generation by Explicit Image Conditioning


Сегодня сразу два больших релиза от моих коллег из Meta GenAI! Один из них — опубликовали модель EMU-Video.

Новая модель строится на базе Text-2-image модели Emu, и теперь может генерить 4-секундные видео 512x512 в 16 fps.

Архитектура, грубо:
мы берем pre-trained 2.7B Emu для генерации text-2-image, замораживаем Unet и добавляем в него дополнительные аттеншен слои, которые работают вдоль врменной оси. И тренируем только доп слои, на генерацию видео по тексту.

На вход даём либо картинку + текст, либо только текст (в этом случае картинку генерим с помощью Emu). На выходе — 65 фрейма 512x512.

Если погрузиться в детали, то сначала генерится 16 фреймов, а затем ещё одна модель с такой же архитектурой интерполирует видео до 65 фреймов.

Это теперь SOTA в text-2-video:
✔️ Emu-Video vs Gen-2: победа Emu-Video в 78.5% случаев
✔️Emu-Video vs Pika - победа в 98.5% случаев по оценке кожаных разметчиков.

Сайт проекта
Демо-результаты

@ai_newz

BY эйай ньюз


Share with your friend now:
group-telegram.com/ai_newz/2310

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In addition, Telegram now supports the use of third-party streaming tools like OBS Studio and XSplit to broadcast live video, allowing users to add overlays and multi-screen layouts for a more professional look. "He has kind of an old-school cyber-libertarian world view where technology is there to set you free," Maréchal said. In a statement, the regulator said the search and seizure operation was carried out against seven individuals and one corporate entity at multiple locations in Ahmedabad and Bhavnagar in Gujarat, Neemuch in Madhya Pradesh, Delhi, and Mumbai. Russians and Ukrainians are both prolific users of Telegram. They rely on the app for channels that act as newsfeeds, group chats (both public and private), and one-to-one communication. Since the Russian invasion of Ukraine, Telegram has remained an important lifeline for both Russians and Ukrainians, as a way of staying aware of the latest news and keeping in touch with loved ones. Artem Kliuchnikov and his family fled Ukraine just days before the Russian invasion.
from tw


Telegram эйай ньюз
FROM American