mirage-ghibli
Гиблификация быстрее и дешевле чем в ChatGPT
Лора Flux.dev
Должно работать прямо на HF но не работает
У авторов есть офсайт с анонсом ИИ-фоторамки с гиблификацией. Регаетесь в вейтлист, постите реферральную ссылку в свой канал и становитесь участником розыгрыша фоторамки стоимостью $160
#stylize #image2image #lora
Гиблификация быстрее и дешевле чем в ChatGPT
Лора Flux.dev
Должно работать прямо на HF но не работает
У авторов есть офсайт с анонсом ИИ-фоторамки с гиблификацией. Регаетесь в вейтлист, постите реферральную ссылку в свой канал и становитесь участником розыгрыша фоторамки стоимостью $160
#stylize #image2image #lora
This media is not supported in your browser
VIEW IN TELEGRAM
DeepSite
Кодинг в браузере на базе DeepSeek-V3-0324
Сразу можно и хостить созданное приложение
#vibecoding #coding
Кодинг в браузере на базе DeepSeek-V3-0324
Сразу можно и хостить созданное приложение
#vibecoding #coding
This media is not supported in your browser
VIEW IN TELEGRAM
VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning
Пониматор видео, мультимодальный агентный фреймворк, который улучшает понимание видеое за счет имитации человекоподобных процессов, таких как разбиение задач, локализация и проверка моментов, а также синтез ответов. Этот подход решает уникальные проблемы, связанные с рассуждениями, основанными на времени
Код
Демо
HF
#vlm #reasoning
Пониматор видео, мультимодальный агентный фреймворк, который улучшает понимание видеое за счет имитации человекоподобных процессов, таких как разбиение задач, локализация и проверка моментов, а также синтез ответов. Этот подход решает уникальные проблемы, связанные с рассуждениями, основанными на времени
Код
Демо
HF
#vlm #reasoning
This media is not supported in your browser
VIEW IN TELEGRAM
TripoSG / TripoSF
Новые модели Tripo
TripoSG 1.5B преобразует картинку в меш
TripoSF работает с более сложными топологиями/сценами, может моделировать внутренние детали объектов
Гитхаб
Веса
Демо
#imageto3d
Новые модели Tripo
TripoSG 1.5B преобразует картинку в меш
TripoSF работает с более сложными топологиями/сценами, может моделировать внутренние детали объектов
Гитхаб
Веса
Демо
#imageto3d
This media is not supported in your browser
VIEW IN TELEGRAM
CFG-Zero★: Improved Classifier-Free Guidance for Flow Matching Models
улучшенный метод генерации картинок и видео вместо обычного CFG, который направляет генерацию по неправильному пути.
Поддерживает wan2.1-14B генерацию видео по картинке, а также Flux, SD, Lumina
Уже есть в #ComfyUI нодах Kijai
Код
Демо
#text2image #image2image #image2video #text2video
улучшенный метод генерации картинок и видео вместо обычного CFG, который направляет генерацию по неправильному пути.
Поддерживает wan2.1-14B генерацию видео по картинке, а также Flux, SD, Lumina
Уже есть в #ComfyUI нодах Kijai
Код
Демо
#text2image #image2image #image2video #text2video
This media is not supported in your browser
VIEW IN TELEGRAM
TokenHSI: Unified Synthesis of Physical Human-Scene Interactions through Task Tokenization
унифицированная модель, которая позволяет персонажам, основанным на физике, выполнять разнообразные задачи взаимодействия человека со сценой. Для 3D персонажей и роботов
Код ждем
#HSI #humananimation
унифицированная модель, которая позволяет персонажам, основанным на физике, выполнять разнообразные задачи взаимодействия человека со сценой. Для 3D персонажей и роботов
Код ждем
#HSI #humananimation
This media is not supported in your browser
VIEW IN TELEGRAM
Не прошло и года с июля 2024
Опубликован код и веса (~8Гб) GenXD - генератора 3D и 4D (с движением) сцен по одному или нескольким ракурсам
Код
Веса
#videoto3d #videoto4d
Опубликован код и веса (~8Гб) GenXD - генератора 3D и 4D (с движением) сцен по одному или нескольким ракурсам
Код
Веса
#videoto3d #videoto4d
This media is not supported in your browser
VIEW IN TELEGRAM
Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency
Создает 4D-сцены на гауссианах из одного изображения, управляемый рендер в реальном времени.
Код
#image2gaussian #image2video #imageto4d #gaussian #nivelview #realtime #4d
Создает 4D-сцены на гауссианах из одного изображения, управляемый рендер в реальном времени.
Код
#image2gaussian #image2video #imageto4d #gaussian #nivelview #realtime #4d
Media is too big
VIEW IN TELEGRAM
GIMM-VFI: Generalizable Implicit Motion Modeling for Video Frame Interpolation
Интерполяция кадров, создает кадры между существующими
Код
#frameinterpolation #slowmotion
Интерполяция кадров, создает кадры между существующими
Код
#frameinterpolation #slowmotion
MiniMax Speech-02
Возможности MiniMax Audio обновились
Создает аудиокниги и подкасты из файлов или URL-ссылок, обрабатывает до 200 тысяч символов за раз
Умеет клонировать голос
Генератор речи поддерживает 30+ языков
При выборе голоса в Speech Synthesis русский есть, но везде ли и как он работает - не проверял
Хвастаются качеством звука
#text2speech #tts #voicecloning
Возможности MiniMax Audio обновились
Создает аудиокниги и подкасты из файлов или URL-ссылок, обрабатывает до 200 тысяч символов за раз
Умеет клонировать голос
Генератор речи поддерживает 30+ языков
При выборе голоса в Speech Synthesis русский есть, но везде ли и как он работает - не проверял
Хвастаются качеством звука
#text2speech #tts #voicecloning
Runway Gen-4
Обновка видеогенератора
Создает картинки и видео по референсным изображениям и текстовым описаниям.
Обещает консистентность стилей, сюжетов, местоположений и прочего
Пробовать тут, доступ раскатывают постепенно
#text2video #image2video
Обновка видеогенератора
Создает картинки и видео по референсным изображениям и текстовым описаниям.
Обещает консистентность стилей, сюжетов, местоположений и прочего
Пробовать тут, доступ раскатывают постепенно
#text2video #image2video