Telegram Group Search
Forwarded from Вестник третьего удара (реалии конечного бота)
Forwarded from Юморной кот
This media is not supported in your browser
VIEW IN TELEGRAM
Так вот вы какие, розовые очки
Forwarded from эйай ньюз
Media is too big
VIEW IN TELEGRAM
Hunyuan GameCraft — нейронный игровой движок от Tencent

Выглядит на голову выше Genie 2 и других конкурентов, при этом сильно более интерективная. В качестве основы используется Hunyuan Video, который натюнили на геймплее из более чем сотни ААА проектов — Assassin’s Creed, Red Dead Redemption и Cyberpunk 2077. Результат соответствующий — некоторые игры из датасета можно легко узнать по результатам генерации модели.

Основная проблема добавления интерактивности в видеомодель — это компромисс между стабильностью картинки и отзывчивостью на действия игрока. Если модель слишком сильно держится за прошлое, она становится инертной и плохо реагирует на резкие повороты. Если же она ориентируется только на последний кадр, то быстро забывает сцену, что приводит к куче артефактов. Если вы пробовали поиграть в нейронный майнкрафт, то вы понимаете о чём я говорю.

Авторы пейпера решают эту проблему с помощью гибридной стратегии обучения, где модель учится генерировать видео в трёх разных режимах: начиная с одного кадра (25%), продолжая короткий фрагмент (70%) или длинный (5%). Смешивая эти три режима во время обучения, модель становится универсальной. Она учится как начинать видео с нуля, так и продолжать его, балансируя между консистентностью и реакцией на новые команды.

Но интерактивность бесполезна если модель настолько медленная, что отклика нужно ждать несколько секунд или даже минуты. Поэтому авторы дистиллируют модель в PCM — Phased Consistency Model. Это позволяет добиться 6.6FPS на 1xH100, это всё ещё неприятно, но уже может считаться интерактивным. Правда это можно заметно ускорить — перевести инференс на Blackwell, квантизировать модельки, дистиллировать в модельку поменьше, ну и другие методы из моего поста про ускорение диффузии.

А длинный путь мы прошли с GAN Theft Auto

Сайт проекта

Пейпер

@ai_newz
привет, у тебя очень интересное мнение по вопросам LLM, а есть ли в нашем регионе чате с единомышленниками? не мог бы меня добавить?
Forwarded from DevOps MemOps
MemOps 😃
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from KABAN
Когда осознал, что ещё не пятница:
Forwarded from Viva La Cringe
Фотошоп — В С Ё

Ну или как там пишутся заголовки, я не СММ-щик.
В свое время хайпанула 4o, которая умела перерисовывать изображения in context, после нее Gemini, и вот волна хайпа докатилась до локальных моделей.

Первой анонсировали Flux Kontext, которую можно потрогать онлайн, но в опенсорс она пока не вышла. Работает весьма неплохо, результат не топовый, но удобоваримый. Ждем, когда зальют dev-версию на обниморду.

Второй вышла OmniGen2 — на примерах просто masterpiece, на деле очень посредственная модель, которая не умеет кучи вещей и в sbs-сравнении сливает Flux Kontext. Во-первых, само качество оставляет желать лучшего, часто мылит или артефачит задний фон, во-вторых, позу и композицию на фото меняет очень слабо, в-третьих, у меня лично она не переодевает персонажей, уж не знаю, что не так со словосочетанием casual clothing и синонимами, у Флюкса такой проблемы не было в принципе, ОмниГен2 оставляет униформу. Такое ощущение, что MagRef справляется лучше (несмотря на видео-ориентацию и костыльный метод применения).
В ComfyUI уже завезли с утречка, можно пробовать на 12 гигах.

Короче, Фотошоп нифига не все, все еще слишком много артефактов и косяков. Конечно для несложных задач, или в качестве прототипирования использовать можно, но такое ощущение, что нынешние image-to-image на уровне GPT-3. Да и банальный inpaint большинство кейсов закрывает с результатом лучше.

Что ж, ждем апгрейдов.

#нейросеть #нейросети #neuralnetwork #neuralnetworks #генерацияизображения #распознаваниеизображения
2025/06/26 10:50:20
Back to Top
HTML Embed Code: