Telegram Group & Telegram Channel
Genie 2 – A large-scale foundation world model

Google DeepMind хвастаются своим игровым AI-движком на базе диффузионного генератора видео. Сейчас это модно назвать World Model, но давайте без булшита, друзья.

Imagen 3 (txt2img от GDM) генерирует картинку – типа начальное состояние игры. Затем, в привычной нам для img2video манере, картинку оживляют, превращая ее в игру, где дополнительным инпутом идет нажатие клавишь.

Пока что игра живёт лишь 60 секунд максимум (в среднем 10–20), но миры все крайне разнообразные и в абсолютно разных условиях. Я имею в виду вид от третьего лица, первого лица, сверху — и даже гонки можно сделать (и на лошади тоже), и просто бродилки, конечно же. Управление по классике: WASD (QE), пробел и мышь.

Также работает и взаимодействие с объектами, например, можно лопать шары, взрывать бочки и открывать двери на E. Там даже NPC-персонажей можно найти, если задать нужный входной "скрин".

Архитектура
Каких-то технических деталей по Genie 2 особо нет — Google на такие вещи довольно скупы. Из моего представления - там тупо latent diffusion image2video модель, где каждый следующих кадр постепенно генерируется, исходя из контекста, состоящего из существующих кадров и нажатий на клавиатуру/мышку.

Черипики с сайта сасные в плане diversity, но не ахти по качеству картинки. Возможно, через год-два каждый сможет сгенерировать себе мир по душе, так же как сейчас генерируют музыку в Suno.

Очевидно, до статуса играбельно ещё далеко. И я тут даже молчу о скорости генерации (об этом не пишут, но, думаю, там не совсем риалтайм). Несмотря на то, что у авторов были горы TPU для обучения и тысячи часов записанного геймплея, качество видео пока хуже PlayStation 1, картинка размытая, и нет четкости в деталях. Ну, и мир сильно плывет после 10–20 секунд. Есть куда улучшать.

Скоро в эту нишу могут вкатиться другие серьёзные игроки (ждём ответку от Маска). Вот тогда и посмотрим.

Блогпост

@ai_newz



group-telegram.com/ai_newz/3491
Create:
Last Update:

Genie 2 – A large-scale foundation world model

Google DeepMind хвастаются своим игровым AI-движком на базе диффузионного генератора видео. Сейчас это модно назвать World Model, но давайте без булшита, друзья.

Imagen 3 (txt2img от GDM) генерирует картинку – типа начальное состояние игры. Затем, в привычной нам для img2video манере, картинку оживляют, превращая ее в игру, где дополнительным инпутом идет нажатие клавишь.

Пока что игра живёт лишь 60 секунд максимум (в среднем 10–20), но миры все крайне разнообразные и в абсолютно разных условиях. Я имею в виду вид от третьего лица, первого лица, сверху — и даже гонки можно сделать (и на лошади тоже), и просто бродилки, конечно же. Управление по классике: WASD (QE), пробел и мышь.

Также работает и взаимодействие с объектами, например, можно лопать шары, взрывать бочки и открывать двери на E. Там даже NPC-персонажей можно найти, если задать нужный входной "скрин".

Архитектура
Каких-то технических деталей по Genie 2 особо нет — Google на такие вещи довольно скупы. Из моего представления - там тупо latent diffusion image2video модель, где каждый следующих кадр постепенно генерируется, исходя из контекста, состоящего из существующих кадров и нажатий на клавиатуру/мышку.

Черипики с сайта сасные в плане diversity, но не ахти по качеству картинки. Возможно, через год-два каждый сможет сгенерировать себе мир по душе, так же как сейчас генерируют музыку в Suno.

Очевидно, до статуса играбельно ещё далеко. И я тут даже молчу о скорости генерации (об этом не пишут, но, думаю, там не совсем риалтайм). Несмотря на то, что у авторов были горы TPU для обучения и тысячи часов записанного геймплея, качество видео пока хуже PlayStation 1, картинка размытая, и нет четкости в деталях. Ну, и мир сильно плывет после 10–20 секунд. Есть куда улучшать.

Скоро в эту нишу могут вкатиться другие серьёзные игроки (ждём ответку от Маска). Вот тогда и посмотрим.

Блогпост

@ai_newz

BY эйай ньюз


Share with your friend now:
group-telegram.com/ai_newz/3491

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

NEWS Emerson Brooking, a disinformation expert at the Atlantic Council's Digital Forensic Research Lab, said: "Back in the Wild West period of content moderation, like 2014 or 2015, maybe they could have gotten away with it, but it stands in marked contrast with how other companies run themselves today." Elsewhere, version 8.6 of Telegram integrates the in-app camera option into the gallery, while a new navigation bar gives quick access to photos, files, location sharing, and more. Some people used the platform to organize ahead of the storming of the U.S. Capitol in January 2021, and last month Senator Mark Warner sent a letter to Durov urging him to curb Russian information operations on Telegram. Russians and Ukrainians are both prolific users of Telegram. They rely on the app for channels that act as newsfeeds, group chats (both public and private), and one-to-one communication. Since the Russian invasion of Ukraine, Telegram has remained an important lifeline for both Russians and Ukrainians, as a way of staying aware of the latest news and keeping in touch with loved ones.
from id


Telegram эйай ньюз
FROM American