BahamutCH Telegram Group

Hunyuan GameCraft — нейронный игровой движок от Tencent

Выглядит на голову выше Genie 2 и других конкурентов, при этом сильно более интерективная. В качестве основы используется Hunyuan Video, который натюнили на геймплее из более чем сотни ААА проектов — Assassin’s Creed, Red Dead Redemption и Cyberpunk 2077. Результат соответствующий — некоторые игры из датасета можно легко узнать по результатам генерации модели.

Основная проблема добавления интерактивности в видеомодель — это компромисс между стабильностью картинки и отзывчивостью на действия игрока. Если модель слишком сильно держится за прошлое, она становится инертной и плохо реагирует на резкие повороты. Если же она ориентируется только на последний кадр, то быстро забывает сцену, что приводит к куче артефактов. Если вы пробовали поиграть в нейронный майнкрафт, то вы понимаете о чём я говорю.

Авторы пейпера решают эту проблему с помощью гибридной стратегии обучения, где модель учится генерировать видео в трёх разных режимах: начиная с одного кадра (25%), продолжая короткий фрагмент (70%) или длинный (5%). Смешивая эти три режима во время обучения, модель становится универсальной. Она учится как начинать видео с нуля, так и продолжать его, балансируя между консистентностью и реакцией на новые команды.

Но интерактивность бесполезна если модель настолько медленная, что отклика нужно ждать несколько секунд или даже минуты. Поэтому авторы дистиллируют модель в PCM — Phased Consistency Model. Это позволяет добиться 6.6FPS на 1xH100, это всё ещё неприятно, но уже может считаться интерактивным. Правда это можно заметно ускорить — перевести инференс на Blackwell, квантизировать модельки, дистиллировать в модельку поменьше, ну и другие методы из моего поста про ускорение диффузии.

А длинный путь мы прошли с GAN Theft Auto

Сайт проекта
Пейпер

@ai_newz

134 views13:56

Bahamut: Memes&Themes

Forwarded from Love. Death. Transformers.

привет, у тебя очень интересное мнение по вопросам LLM, а есть ли в нашем регионе чате с единомышленниками? не мог бы меня добавить?

135 views17:53

Bahamut: Memes&Themes

Forwarded from DevOps MemOps

MemOps

😃

Please open Telegram to view this post

VIEW IN TELEGRAM

124 views04:31

Bahamut: Memes&Themes

Forwarded from KABAN

105 views04:31

Bahamut: Memes&Themes

Forwarded from Я игра меня играли

Когда осознал, что ещё не пятница:

112 views06:37

Bahamut: Memes&Themes

Forwarded from Viva La Cringe

110 views06:40

Bahamut: Memes&Themes

Forwarded from Ревашольская гончая

0:16

This media is not supported in your browser

VIEW IN TELEGRAM

102 views07:15

Bahamut: Memes&Themes

101 views08:34

Bahamut: Memes&Themes

119 views08:51

Bahamut: Memes&Themes

90 views08:53

Bahamut: Memes&Themes

Фотошоп — В С Ё

Ну или как там пишутся заголовки, я не СММ-щик.
В свое время хайпанула 4o, которая умела перерисовывать изображения in context, после нее Gemini, и вот волна хайпа докатилась до локальных моделей.

Первой анонсировали Flux Kontext, которую можно потрогать онлайн, но в опенсорс она пока не вышла. Работает весьма неплохо, результат не топовый, но удобоваримый. Ждем, когда зальют dev-версию на обниморду.

Второй вышла OmniGen2 — на примерах просто masterpiece, на деле очень посредственная модель, которая не умеет кучи вещей и в sbs-сравнении сливает Flux Kontext. Во-первых, само качество оставляет желать лучшего, часто мылит или артефачит задний фон, во-вторых, позу и композицию на фото меняет очень слабо, в-третьих, у меня лично она не переодевает персонажей, уж не знаю, что не так со словосочетанием casual clothing и синонимами, у Флюкса такой проблемы не было в принципе, ОмниГен2 оставляет униформу. Такое ощущение, что MagRef справляется лучше (несмотря на видео-ориентацию и костыльный метод применения).
В ComfyUI уже завезли с утречка, можно пробовать на 12 гигах.

Короче, Фотошоп нифига не все, все еще слишком много артефактов и косяков. Конечно для несложных задач, или в качестве прототипирования использовать можно, но такое ощущение, что нынешние image-to-image на уровне GPT-3. Да и банальный inpaint большинство кейсов закрывает с результатом лучше.

Что ж, ждем апгрейдов.

#нейросеть #нейросети #neuralnetwork #neuralnetworks #генерацияизображения #распознаваниеизображения

playground.bfl.ai

FLUX Playground - Black Forest Labs

Try out the best FLUX models in your browser.

61 views09:23

2025/06/26 10:50:20
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.group-telegram.com/buyppe/webview?embed=1" title="Channel Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>