Telegram Group Search
Wan2.1_14B_FusionX

Сплав Wan2.1 с последними достижениями видеогенерации

До 50% быстрее стандартных моделей

Интегрированы Phantom Mode, VACE

- Кинематографичное движение от CausVid

- Детализация от AccVideo

- Плавность от MoviiGen1.1

- Текстуры и четкость от кастомных LoRA

воркфлоу
GGUF

#text2video #image2video #workflow
Media is too big
VIEW IN TELEGRAM
Seedance 1.0: Exploring the Boundaries of Video Generation Models

И еще новая модель для генерации видео от ByteDance, выше VEO 3 Preview на арене!

- поддерживает генерацию видео из текста и изображений;

- высокое качество и плавность движения в создаваемых видео;

- способна создавать видео с несколькими связными кадрами, сохраняя согласованность основного объекта, визуального стиля и атмосферы при переходах между кадрами;

- точно интерпретирует разнообразные стилистические подсказки, поддерживая широкий спектр творческих потребностей;

- позволяет стабильно контролировать взаимодействия между несколькими агентами, сложные последовательности действий и разнообразные движения камеры.

Пробовать бесплатно в Dreamina - 120 кредитов в день, спасибо @dAIpotestit
Попробовать платно на WavespeedAI
Попробовать платно на fal.ai

#text2video #image2video
Media is too big
VIEW IN TELEGRAM
PlayerOne: Egocentric World Simulator

Симулятор реалистичных видео с точки зрения пользователя, основываясь на его движениях и сцене вокруг. Обучен на большом количестве данных и умеет точно моделировать мир. От Alibaba & co

Код ждем

#text2video #image2video #simulation #text2world #image2world #POV
Media is too big
VIEW IN TELEGRAM
LoRA-Edit: Controllable First-Frame-Guided Video Editing via Mask-Aware LoRA Fine-Tuning

Метод редактирования видео. Распространяет изменения в первом кадре на всё видео с помощью масок. Позволяет использовать дополнительные опорные кадры.

На сайте есть сравнение с VACE и др

Код

#videoediting
This media is not supported in your browser
VIEW IN TELEGRAM
Cosmos-Predict2

Семейство моделей от NVIDIA для создания изображений, видео и состояний мира с учетом физики - на основе текста, картинок или видеовходов.

2B и 14B

Про 2B пишут что хорошо, хотя втрое медленее SDXL при своей маленькости 😼

Код
Демо
Веса
воркфлоу

#text2image #text2video #image2image #image2video #world #physics
Wan 14B Self Forcing T2V Lora by Kijai

720x480 97кадров выдает за ~100 секунд на 4070ti super 16 vram, 4 steps, lcm, 1 cfg, 8 shift

Берете стандартный T2V воркфлоу от Kijai

Wan2.1-T2V-14B-StepDistill-CfgDistill - дистиллированная модель на 4-8 шагов, из которой Kijai вынул лору

#text2video #lora
MagCache: Fast Video Generation with Magnitude-Aware Cache

TeaCache пора на пенсию?

Метод ускорения генерации видео с помощью адаптивного кэширования, основанного на анализе величины изменений между шагами процесса. Это позволяет пропускать несущественные шаги и тем самым ускорять процесс без потери качества видео

Народные тесты на RTX5060ti:
- только torch compile: 60с
- только Magcache: 32с
- Magcache + torch compile: 21с

Прикручено к Wan2.1 / HunyuanVideo / FLUX / Chroma

Код
ComfyUI

#optimization
Hunyuan 3D 2.1

Обновка 3D генератора от Tencent в опенсорсе.
2.5 похоже в опенсорс не выпустят

Акцент на #PBR текстурах. В прежней версии были просто RGB

Для генерации меша нужно 10 ГБ VRAM
Для генерации текстур 21 ГБ VRAM
Итого для текстурированного меша 29 ГБ VRAM.

Код
Демо
HF

#imageto3d #textto3d
This media is not supported in your browser
VIEW IN TELEGRAM
Lalein

Делает подкасты из PDF, текста, видео - подобно NotebookLM.

Пока есть только для iOS. Я скачал с российского аппстора без впн и прочих проблем.

Говорит на русском и других языках. Есть выбор нескольких голосов. От 1 до 3 спикеров в подкасте. От 5 до 60 минут.

Есть бесплатный функционал. Ограничение на качество голосов, выбор голосов, нельзя создавать свои. На платном можно. Есть какой-то лимит на количество бесплатных подкастов. Какой - непонятно

Я закинул в него инструкцию по сборке шкафа который собирал позавчера, наслаждайтесь

iOS

#podcast #any2podcast #pdf2podcast
Нейронавт | Нейросети в творчестве
Krea 1 Новый генератор картинок от Krea AI Пока еще не в общем доступе - способty создавать изображения с фотореалистичными текстурами кожи и продвинутой цветопередачей; - предлагает возможность работы с экстремальными ракурсами камеры; - умеет воспроизводить…
Генератор картинок Krea 1 доступен всем пользователям. 11 картинок в день бесплатно

Твит

[бормочет на старческом] помню времена когда 100 приветственных картинок в Midjourney было весьма щедро

#news #text2image #imageediting
Media is too big
VIEW IN TELEGRAM
Minimax Hailuo 02

Главная новость минувшей ночи

Новый видеоген, побивший на арене VEO3 Preview

- лучший в своем классе по следованию промпту
- нативный 1080p
- умеет в акробатику и прочую экстремальную физику

Из описания бесплатного тарифа убрали ежедневную раздачу кредитов. Press F

На офсайте его нет (у меня, я халявщик) но есть во вчера релизнутом агенте MiniMax-M1
Говорят, там вообще даром и пусть никто не уйдет обиженным

- Самое длинное в мире контекстное окно: ввод 1 млн токенов, вывод 80 тыс.
- SOTA по агентам в опенсорсе
- RL с непревзойденной эффективностью: обучение всего за 534 700 долларов

HF
Гитхаб
Чат

#text2video #agent #sota #assistant
This media is not supported in your browser
VIEW IN TELEGRAM
Proactor

первый в мире проактивный ИИ-агент, который работает в реальном времени, анализирует обсуждения, выявляет потенциальные потребности и выполняет задачи до того, как пользователь их сформулирует. Он самостоятельно нажимает красную кноп включается в разговор, чтобы предоставить транскрипцию, резюме и помощь в режиме реального времени.

Записаться в вейтлист

#agent #realtime
This media is not supported in your browser
VIEW IN TELEGRAM
Chatterbox Audiobook Generator

По Chatterbox уже много свистоперделок вышло, вот одна из них. Мультиголосовой генератор аудиокниг / подкастов

Код

#audiobook #tts #text2audiobook #podcast #text2podcast
This media is not supported in your browser
VIEW IN TELEGRAM
Ego-R1

Система для анализа сверхдлинных эгоцентрических видеозаписей (#POV) (длительностью в дни и недели). Использование структурированного процесса Chain-of-Tool-Thought (CoTT) позволяет агенту Ego-R1 шаг за шагом анализировать видео, используя различные инструменты.

Гитхаб

#agent #video2text @reasoning
2025/06/18 10:25:52
Back to Top
HTML Embed Code: