Кто там топил за оптические процессоры? Поздравляю вас, разработка успешно движется!
Telegram
PRO Hi-Tech
На фоне ограничений на поставки графических ускорителей Nvidia в Китай местные исследователи представили альтернативу — оптический чип Meteor-1, предназначенный для задач искусственного интеллекта. Разработкой занимались специалисты Шанхайского института…
Forwarded from Юморной кот
This media is not supported in your browser
VIEW IN TELEGRAM
Так вот вы какие, розовые очки
Forwarded from эйай ньюз
Media is too big
VIEW IN TELEGRAM
Hunyuan GameCraft — нейронный игровой движок от Tencent
Выглядит на голову выше Genie 2 и других конкурентов, при этом сильно более интерективная. В качестве основы используется Hunyuan Video, который натюнили на геймплее из более чем сотни ААА проектов — Assassin’s Creed, Red Dead Redemption и Cyberpunk 2077. Результат соответствующий — некоторые игры из датасета можно легко узнать по результатам генерации модели.
Основная проблема добавления интерактивности в видеомодель — это компромисс между стабильностью картинки и отзывчивостью на действия игрока. Если модель слишком сильно держится за прошлое, она становится инертной и плохо реагирует на резкие повороты. Если же она ориентируется только на последний кадр, то быстро забывает сцену, что приводит к куче артефактов. Если вы пробовали поиграть в нейронный майнкрафт, то вы понимаете о чём я говорю.
Авторы пейпера решают эту проблему с помощью гибридной стратегии обучения, где модель учится генерировать видео в трёх разных режимах: начиная с одного кадра (25%), продолжая короткий фрагмент (70%) или длинный (5%). Смешивая эти три режима во время обучения, модель становится универсальной. Она учится как начинать видео с нуля, так и продолжать его, балансируя между консистентностью и реакцией на новые команды.
Но интерактивность бесполезна если модель настолько медленная, что отклика нужно ждать несколько секунд или даже минуты. Поэтому авторы дистиллируют модель в PCM — Phased Consistency Model. Это позволяет добиться 6.6FPS на 1xH100, это всё ещё неприятно, но уже может считаться интерактивным. Правда это можно заметно ускорить — перевести инференс на Blackwell, квантизировать модельки, дистиллировать в модельку поменьше, ну и другие методы из моего поста про ускорение диффузии.
А длинный путь мы прошли с GAN Theft Auto
Сайт проекта
Пейпер
@ai_newz
Выглядит на голову выше Genie 2 и других конкурентов, при этом сильно более интерективная. В качестве основы используется Hunyuan Video, который натюнили на геймплее из более чем сотни ААА проектов — Assassin’s Creed, Red Dead Redemption и Cyberpunk 2077. Результат соответствующий — некоторые игры из датасета можно легко узнать по результатам генерации модели.
Основная проблема добавления интерактивности в видеомодель — это компромисс между стабильностью картинки и отзывчивостью на действия игрока. Если модель слишком сильно держится за прошлое, она становится инертной и плохо реагирует на резкие повороты. Если же она ориентируется только на последний кадр, то быстро забывает сцену, что приводит к куче артефактов. Если вы пробовали поиграть в нейронный майнкрафт, то вы понимаете о чём я говорю.
Авторы пейпера решают эту проблему с помощью гибридной стратегии обучения, где модель учится генерировать видео в трёх разных режимах: начиная с одного кадра (25%), продолжая короткий фрагмент (70%) или длинный (5%). Смешивая эти три режима во время обучения, модель становится универсальной. Она учится как начинать видео с нуля, так и продолжать его, балансируя между консистентностью и реакцией на новые команды.
Но интерактивность бесполезна если модель настолько медленная, что отклика нужно ждать несколько секунд или даже минуты. Поэтому авторы дистиллируют модель в PCM — Phased Consistency Model. Это позволяет добиться 6.6FPS на 1xH100, это всё ещё неприятно, но уже может считаться интерактивным. Правда это можно заметно ускорить — перевести инференс на Blackwell, квантизировать модельки, дистиллировать в модельку поменьше, ну и другие методы из моего поста про ускорение диффузии.
А длинный путь мы прошли с GAN Theft Auto
Сайт проекта
Пейпер
@ai_newz
Forwarded from Love. Death. Transformers.
привет, у тебя очень интересное мнение по вопросам LLM, а есть ли в нашем регионе чате с единомышленниками? не мог бы меня добавить?
Фотошоп — В С Ё
Ну или как там пишутся заголовки, я не СММ-щик.
В свое время хайпанула 4o, которая умела перерисовывать изображения in context, после нее Gemini, и вот волна хайпа докатилась до локальных моделей.
Первой анонсировали Flux Kontext, которую можно потрогать онлайн, но в опенсорс она пока не вышла. Работает весьма неплохо, результат не топовый, но удобоваримый. Ждем, когда зальют dev-версию на обниморду.
Второй вышла OmniGen2 — на примерах просто masterpiece, на деле очень посредственная модель, которая не умеет кучи вещей и в sbs-сравнении сливает Flux Kontext. Во-первых, само качество оставляет желать лучшего, часто мылит или артефачит задний фон, во-вторых, позу и композицию на фото меняет очень слабо, в-третьих, у меня лично она не переодевает персонажей, уж не знаю, что не так со словосочетанием casual clothing и синонимами, у Флюкса такой проблемы не было в принципе, ОмниГен2 оставляет униформу. Такое ощущение, что MagRef справляется лучше (несмотря на видео-ориентацию и костыльный метод применения).
В ComfyUI уже завезли с утречка, можно пробовать на 12 гигах.
Короче, Фотошоп нифига не все, все еще слишком много артефактов и косяков. Конечно для несложных задач, или в качестве прототипирования использовать можно, но такое ощущение, что нынешние image-to-image на уровне GPT-3. Да и банальный inpaint большинство кейсов закрывает с результатом лучше.
Что ж, ждем апгрейдов.
#нейросеть #нейросети #neuralnetwork #neuralnetworks #генерацияизображения #распознаваниеизображения
Ну или как там пишутся заголовки, я не СММ-щик.
В свое время хайпанула 4o, которая умела перерисовывать изображения in context, после нее Gemini, и вот волна хайпа докатилась до локальных моделей.
Первой анонсировали Flux Kontext, которую можно потрогать онлайн, но в опенсорс она пока не вышла. Работает весьма неплохо, результат не топовый, но удобоваримый. Ждем, когда зальют dev-версию на обниморду.
Второй вышла OmniGen2 — на примерах просто masterpiece, на деле очень посредственная модель, которая не умеет кучи вещей и в sbs-сравнении сливает Flux Kontext. Во-первых, само качество оставляет желать лучшего, часто мылит или артефачит задний фон, во-вторых, позу и композицию на фото меняет очень слабо, в-третьих, у меня лично она не переодевает персонажей, уж не знаю, что не так со словосочетанием casual clothing и синонимами, у Флюкса такой проблемы не было в принципе, ОмниГен2 оставляет униформу. Такое ощущение, что MagRef справляется лучше (несмотря на видео-ориентацию и костыльный метод применения).
В ComfyUI уже завезли с утречка, можно пробовать на 12 гигах.
Короче, Фотошоп нифига не все, все еще слишком много артефактов и косяков. Конечно для несложных задач, или в качестве прототипирования использовать можно, но такое ощущение, что нынешние image-to-image на уровне GPT-3. Да и банальный inpaint большинство кейсов закрывает с результатом лучше.
Что ж, ждем апгрейдов.
#нейросеть #нейросети #neuralnetwork #neuralnetworks #генерацияизображения #распознаваниеизображения
playground.bfl.ai
FLUX Playground - Black Forest Labs
Try out the best FLUX models in your browser.