Telegram Group Search
Forwarded from эйай ньюз
Media is too big
VIEW IN TELEGRAM
Hunyuan GameCraft — нейронный игровой движок от Tencent

Выглядит на голову выше Genie 2 и других конкурентов, при этом сильно более интерективная. В качестве основы используется Hunyuan Video, который натюнили на геймплее из более чем сотни ААА проектов — Assassin’s Creed, Red Dead Redemption и Cyberpunk 2077. Результат соответствующий — некоторые игры из датасета можно легко узнать по результатам генерации модели.

Основная проблема добавления интерактивности в видеомодель — это компромисс между стабильностью картинки и отзывчивостью на действия игрока. Если модель слишком сильно держится за прошлое, она становится инертной и плохо реагирует на резкие повороты. Если же она ориентируется только на последний кадр, то быстро забывает сцену, что приводит к куче артефактов. Если вы пробовали поиграть в нейронный майнкрафт, то вы понимаете о чём я говорю.

Авторы пейпера решают эту проблему с помощью гибридной стратегии обучения, где модель учится генерировать видео в трёх разных режимах: начиная с одного кадра (25%), продолжая короткий фрагмент (70%) или длинный (5%). Смешивая эти три режима во время обучения, модель становится универсальной. Она учится как начинать видео с нуля, так и продолжать его, балансируя между консистентностью и реакцией на новые команды.

Но интерактивность бесполезна если модель настолько медленная, что отклика нужно ждать несколько секунд или даже минуты. Поэтому авторы дистиллируют модель в PCM — Phased Consistency Model. Это позволяет добиться 6.6FPS на 1xH100, это всё ещё неприятно, но уже может считаться интерактивным. Правда это можно заметно ускорить — перевести инференс на Blackwell, квантизировать модельки, дистиллировать в модельку поменьше, ну и другие методы из моего поста про ускорение диффузии.

А длинный путь мы прошли с GAN Theft Auto

Сайт проекта

Пейпер

@ai_newz
привет, у тебя очень интересное мнение по вопросам LLM, а есть ли в нашем регионе чате с единомышленниками? не мог бы меня добавить?
Forwarded from DevOps MemOps
MemOps 😃
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from KABAN
Когда осознал, что ещё не пятница:
Forwarded from Viva La Cringe
Фотошоп — В С Ё

Ну или как там пишутся заголовки, я не СММ-щик.
В свое время хайпанула 4o, которая умела перерисовывать изображения in context, после нее Gemini, и вот волна хайпа докатилась до локальных моделей.

Первой анонсировали Flux Kontext, которую можно потрогать онлайн, но в опенсорс она пока не вышла а dev-версию можно скачать тут. Работает весьма неплохо, результат не топовый, но удобоваримый. Ждем, когда зальют dev-версию на обниморду.

Второй вышла OmniGen2 — на примерах просто masterpiece, на деле очень посредственная модель, которая не умеет кучи вещей и в sbs-сравнении сливает Flux Kontext. Во-первых, само качество оставляет желать лучшего, часто мылит или артефачит задний фон, во-вторых, позу и композицию на фото меняет очень слабо, в-третьих, у меня лично она не переодевает персонажей, уж не знаю, что не так со словосочетанием casual clothing и синонимами, у Флюкса такой проблемы не было в принципе, ОмниГен2 оставляет униформу. Такое ощущение, что MagRef справляется лучше (несмотря на видео-ориентацию и костыльный метод применения).
В ComfyUI уже завезли с утречка, можно пробовать на 12 гигах.

Короче, Фотошоп нифига не все, все еще слишком много артефактов и косяков. Конечно для несложных задач, или в качестве прототипирования использовать можно, но такое ощущение, что нынешние image-to-image на уровне GPT-3. Да и банальный inpaint большинство кейсов закрывает с результатом лучше.

Что ж, ждем апгрейдов.

#нейросеть #нейросети #neuralnetwork #neuralnetworks #генерацияизображения #распознаваниеизображения
Forwarded from Viva La Cringe
2025/06/28 22:49:31
Back to Top
HTML Embed Code: