🔥EMU VIDEO: Factorizing Text-to-Video Generation by Explicit Image Conditioning
Сегодня сразу два больших релиза от моих коллег из Meta GenAI! Один из них — опубликовали модель EMU-Video.
Новая модель строится на базе Text-2-image модели Emu, и теперь может генерить 4-секундные видео 512x512 в 16 fps.
Архитектура, грубо: мы берем pre-trained 2.7B Emu для генерации text-2-image, замораживаем Unet и добавляем в него дополнительные аттеншен слои, которые работают вдоль врменной оси. И тренируем только доп слои, на генерацию видео по тексту.
На вход даём либо картинку + текст, либо только текст (в этом случае картинку генерим с помощью Emu). На выходе — 65 фрейма 512x512.
Если погрузиться в детали, то сначала генерится 16 фреймов, а затем ещё одна модель с такой же архитектурой интерполирует видео до 65 фреймов.
Это теперь SOTA в text-2-video: ✔️ Emu-Video vs Gen-2: победа Emu-Video в 78.5% случаев ✔️Emu-Video vs Pika - победа в 98.5% случаев по оценке кожаных разметчиков.
🔥EMU VIDEO: Factorizing Text-to-Video Generation by Explicit Image Conditioning
Сегодня сразу два больших релиза от моих коллег из Meta GenAI! Один из них — опубликовали модель EMU-Video.
Новая модель строится на базе Text-2-image модели Emu, и теперь может генерить 4-секундные видео 512x512 в 16 fps.
Архитектура, грубо: мы берем pre-trained 2.7B Emu для генерации text-2-image, замораживаем Unet и добавляем в него дополнительные аттеншен слои, которые работают вдоль врменной оси. И тренируем только доп слои, на генерацию видео по тексту.
На вход даём либо картинку + текст, либо только текст (в этом случае картинку генерим с помощью Emu). На выходе — 65 фрейма 512x512.
Если погрузиться в детали, то сначала генерится 16 фреймов, а затем ещё одна модель с такой же архитектурой интерполирует видео до 65 фреймов.
Это теперь SOTA в text-2-video: ✔️ Emu-Video vs Gen-2: победа Emu-Video в 78.5% случаев ✔️Emu-Video vs Pika - победа в 98.5% случаев по оценке кожаных разметчиков.
In addition, Telegram now supports the use of third-party streaming tools like OBS Studio and XSplit to broadcast live video, allowing users to add overlays and multi-screen layouts for a more professional look. "He has kind of an old-school cyber-libertarian world view where technology is there to set you free," Maréchal said. In a statement, the regulator said the search and seizure operation was carried out against seven individuals and one corporate entity at multiple locations in Ahmedabad and Bhavnagar in Gujarat, Neemuch in Madhya Pradesh, Delhi, and Mumbai. Russians and Ukrainians are both prolific users of Telegram. They rely on the app for channels that act as newsfeeds, group chats (both public and private), and one-to-one communication. Since the Russian invasion of Ukraine, Telegram has remained an important lifeline for both Russians and Ukrainians, as a way of staying aware of the latest news and keeping in touch with loved ones. Artem Kliuchnikov and his family fled Ukraine just days before the Russian invasion.
from tw