Forwarded from эйай ньюз
Media is too big
VIEW IN TELEGRAM
Hunyuan GameCraft — нейронный игровой движок от Tencent
Выглядит на голову выше Genie 2 и других конкурентов, при этом сильно более интерективная. В качестве основы используется Hunyuan Video, который натюнили на геймплее из более чем сотни ААА проектов — Assassin’s Creed, Red Dead Redemption и Cyberpunk 2077. Результат соответствующий — некоторые игры из датасета можно легко узнать по результатам генерации модели.
Основная проблема добавления интерактивности в видеомодель — это компромисс между стабильностью картинки и отзывчивостью на действия игрока. Если модель слишком сильно держится за прошлое, она становится инертной и плохо реагирует на резкие повороты. Если же она ориентируется только на последний кадр, то быстро забывает сцену, что приводит к куче артефактов. Если вы пробовали поиграть в нейронный майнкрафт, то вы понимаете о чём я говорю.
Авторы пейпера решают эту проблему с помощью гибридной стратегии обучения, где модель учится генерировать видео в трёх разных режимах: начиная с одного кадра (25%), продолжая короткий фрагмент (70%) или длинный (5%). Смешивая эти три режима во время обучения, модель становится универсальной. Она учится как начинать видео с нуля, так и продолжать его, балансируя между консистентностью и реакцией на новые команды.
Но интерактивность бесполезна если модель настолько медленная, что отклика нужно ждать несколько секунд или даже минуты. Поэтому авторы дистиллируют модель в PCM — Phased Consistency Model. Это позволяет добиться 6.6FPS на 1xH100, это всё ещё неприятно, но уже может считаться интерактивным. Правда это можно заметно ускорить — перевести инференс на Blackwell, квантизировать модельки, дистиллировать в модельку поменьше, ну и другие методы из моего поста про ускорение диффузии.
А длинный путь мы прошли с GAN Theft Auto
Сайт проекта
Пейпер
@ai_newz
Выглядит на голову выше Genie 2 и других конкурентов, при этом сильно более интерективная. В качестве основы используется Hunyuan Video, который натюнили на геймплее из более чем сотни ААА проектов — Assassin’s Creed, Red Dead Redemption и Cyberpunk 2077. Результат соответствующий — некоторые игры из датасета можно легко узнать по результатам генерации модели.
Основная проблема добавления интерактивности в видеомодель — это компромисс между стабильностью картинки и отзывчивостью на действия игрока. Если модель слишком сильно держится за прошлое, она становится инертной и плохо реагирует на резкие повороты. Если же она ориентируется только на последний кадр, то быстро забывает сцену, что приводит к куче артефактов. Если вы пробовали поиграть в нейронный майнкрафт, то вы понимаете о чём я говорю.
Авторы пейпера решают эту проблему с помощью гибридной стратегии обучения, где модель учится генерировать видео в трёх разных режимах: начиная с одного кадра (25%), продолжая короткий фрагмент (70%) или длинный (5%). Смешивая эти три режима во время обучения, модель становится универсальной. Она учится как начинать видео с нуля, так и продолжать его, балансируя между консистентностью и реакцией на новые команды.
Но интерактивность бесполезна если модель настолько медленная, что отклика нужно ждать несколько секунд или даже минуты. Поэтому авторы дистиллируют модель в PCM — Phased Consistency Model. Это позволяет добиться 6.6FPS на 1xH100, это всё ещё неприятно, но уже может считаться интерактивным. Правда это можно заметно ускорить — перевести инференс на Blackwell, квантизировать модельки, дистиллировать в модельку поменьше, ну и другие методы из моего поста про ускорение диффузии.
А длинный путь мы прошли с GAN Theft Auto
Сайт проекта
Пейпер
@ai_newz
Forwarded from Love. Death. Transformers.
привет, у тебя очень интересное мнение по вопросам LLM, а есть ли в нашем регионе чате с единомышленниками? не мог бы меня добавить?
Фотошоп — В С Ё
Ну или как там пишутся заголовки, я не СММ-щик.
В свое время хайпанула 4o, которая умела перерисовывать изображения in context, после нее Gemini, и вот волна хайпа докатилась до локальных моделей.
Первой анонсировали Flux Kontext, которую можно потрогать онлайн,но в опенсорс она пока не вышла а dev-версию можно скачать тут. Работает весьма неплохо, результат не топовый, но удобоваримый. Ждем, когда зальют dev-версию на обниморду.
Второй вышла OmniGen2 — на примерах просто masterpiece, на деле очень посредственная модель, которая не умеет кучи вещей и в sbs-сравнении сливает Flux Kontext. Во-первых, само качество оставляет желать лучшего, часто мылит или артефачит задний фон, во-вторых, позу и композицию на фото меняет очень слабо, в-третьих, у меня лично она не переодевает персонажей, уж не знаю, что не так со словосочетанием casual clothing и синонимами, у Флюкса такой проблемы не было в принципе, ОмниГен2 оставляет униформу. Такое ощущение, что MagRef справляется лучше (несмотря на видео-ориентацию и костыльный метод применения).
В ComfyUI уже завезли с утречка, можно пробовать на 12 гигах.
Короче, Фотошоп нифига не все, все еще слишком много артефактов и косяков. Конечно для несложных задач, или в качестве прототипирования использовать можно, но такое ощущение, что нынешние image-to-image на уровне GPT-3. Да и банальный inpaint большинство кейсов закрывает с результатом лучше.
Что ж, ждем апгрейдов.
#нейросеть #нейросети #neuralnetwork #neuralnetworks #генерацияизображения #распознаваниеизображения
Ну или как там пишутся заголовки, я не СММ-щик.
В свое время хайпанула 4o, которая умела перерисовывать изображения in context, после нее Gemini, и вот волна хайпа докатилась до локальных моделей.
Первой анонсировали Flux Kontext, которую можно потрогать онлайн,
Второй вышла OmniGen2 — на примерах просто masterpiece, на деле очень посредственная модель, которая не умеет кучи вещей и в sbs-сравнении сливает Flux Kontext. Во-первых, само качество оставляет желать лучшего, часто мылит или артефачит задний фон, во-вторых, позу и композицию на фото меняет очень слабо, в-третьих, у меня лично она не переодевает персонажей, уж не знаю, что не так со словосочетанием casual clothing и синонимами, у Флюкса такой проблемы не было в принципе, ОмниГен2 оставляет униформу. Такое ощущение, что MagRef справляется лучше (несмотря на видео-ориентацию и костыльный метод применения).
В ComfyUI уже завезли с утречка, можно пробовать на 12 гигах.
Короче, Фотошоп нифига не все, все еще слишком много артефактов и косяков. Конечно для несложных задач, или в качестве прототипирования использовать можно, но такое ощущение, что нынешние image-to-image на уровне GPT-3. Да и банальный inpaint большинство кейсов закрывает с результатом лучше.
Что ж, ждем апгрейдов.
#нейросеть #нейросети #neuralnetwork #neuralnetworks #генерацияизображения #распознаваниеизображения
playground.bfl.ai
FLUX Playground - Black Forest Labs
Try out the best FLUX models in your browser.