GreenNeuralRobots 6652 Telegram Group

DeepSite

Кодинг в браузере на базе DeepSeek-V3-0324

Сразу можно и хостить созданное приложение

#vibecoding #coding

1.9K views07:50

0:32

VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning

Пониматор видео, мультимодальный агентный фреймворк, который улучшает понимание видеое за счет имитации человекоподобных процессов, таких как разбиение задач, локализация и проверка моментов, а также синтез ответов. Этот подход решает уникальные проблемы, связанные с рассуждениями, основанными на времени

Код
Демо
HF

#vlm #reasoning

1.7K viewsedited 08:12

0:31

TripoSG / TripoSF

Новые модели Tripo

TripoSG 1.5B преобразует картинку в меш

TripoSF работает с более сложными топологиями/сценами, может моделировать внутренние детали объектов

Гитхаб
Веса
Демо

#imageto3d

1.8K views08:43

0:50

CFG-Zero★: Improved Classifier-Free Guidance for Flow Matching Models

улучшенный метод генерации картинок и видео вместо обычного CFG, который направляет генерацию по неправильному пути.

Поддерживает wan2.1-14B генерацию видео по картинке, а также Flux, SD, Lumina

Уже есть в #ComfyUI нодах Kijai

Код
Демо

#text2image #image2image #image2video #text2video

2.0K views09:13

0:18

TokenHSI: Unified Synthesis of Physical Human-Scene Interactions through Task Tokenization

унифицированная модель, которая позволяет персонажам, основанным на физике, выполнять разнообразные задачи взаимодействия человека со сценой. Для 3D персонажей и роботов

Код ждем

#HSI #humananimation

1.7K views10:13

Не прошло и года с июля 2024

Опубликован код и веса (~8Гб) GenXD - генератора 3D и 4D (с движением) сцен по одному или нескольким ракурсам

Код
Веса

#videoto3d #videoto4d

1.7K views10:44

0:31

Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency

Создает 4D-сцены на гауссианах из одного изображения, управляемый рендер в реальном времени.

Код

#image2gaussian #image2video #imageto4d #gaussian #nivelview #realtime #4d

1.7K viewsedited 11:14

1:15

Media is too big

GIMM-VFI: Generalizable Implicit Motion Modeling for Video Frame Interpolation

Интерполяция кадров, создает кадры между существующими

Код

#frameinterpolation #slowmotion

1.7K views14:41

0:18

0:13

0:09

0:15

MiniMax Speech-02

Возможности MiniMax Audio обновились

Создает аудиокниги и подкасты из файлов или URL-ссылок, обрабатывает до 200 тысяч символов за раз

Умеет клонировать голос

Генератор речи поддерживает 30+ языков
При выборе голоса в Speech Synthesis русский есть, но везде ли и как он работает - не проверял

Хвастаются качеством звука

#text2speech #tts #voicecloning

1.8K views15:16

0:19

0:17