Telegram Group Search
Runway: обновили Act One, инструмент для переложения своей лицевой анимации с липсинком на визуал. Раньше оно работало с картинками, а теперь пашет и с видео.

Можно менять слова сказанные персонажем, сделать дубль более экспрессивным без пересъёмок, или на препродакшене потестить что работает, а что нет. Причём можно и песни кормить, на вокал тоже реагирует.

По примерам видно, что чем ближе к камере персонаж в кадре, и чем менее он подвижен, тем лучше результат получается. Если нужно "ре-анимировать" чью-то экспрессивную актёрскую игру с новыми словами, то придётся повторить движения героя в кадре, иначе будет рассинхрон.

В отличие от DeepfaceLab или FaceFusion это работает с животными и мультипликацией, и чувствуется что анимация идёт изнутри лица, а не поверх. Хотя в каких-то случаях ими тоже можно достичь похожего результата.

Дальше будет только лучше.

PS: в гайде кстати сказано, что только людей можно анимировать.

Твит
Сайт
Гайд
Дайджест:

📹 ВИДЕО + АРТ 🎨

Comfy: в версии v 0.3.10 появилась возможность запускать видеогенератор Хуньянь на видюхах с 8 ГБ VRAM благодаря темпоральному тайлингу. Хотя я пока вижу на свих тестах 16+ ГБ. Ранее Хуньянь обзавёлся FP8 версией и официальным комфи. Также добавлена поддержка генератора картинок PixArt.

Diffusers: в v 0.32 добавлена поддержка 4 новых видео моделей (Mochi-1, Allegro, LTX, Хуньянь), пайплайнов для Flux Tools, SD 3.5 и Sana, квантизаций в GGUF и TorchAO, а также тренировочных скриптов.

Zluda: CUDA для карт AMD позволяет стабильно гонять веб-интерфейс SD Forge.

Рейтресинг на WebGPU.

Kling: выпустили Kling v 1.6. Улучшилось качество видео и его динамика. В v 1.5 добавили контроль через указание последнего кадра в img-2-video (режим профи). Также обновили генератор картинок Kolors до v 1.5, улучшив эстетичность, работу с цветами и промтом. Плюс для липсинка теперь доступен выбор эмоций и два новых голоса. И да, виртуальную примерочную AI Virtual Try-On переименовали в AI Outfit.

Runway
: запустили Talent Network, где авторы, использующие AI для создания видео, могут найти заказчиков. Похожая инициатива есть у Kling. Ещё добавили контроль генерации через промежуточный кейфрейм.

Google: показали видеогенератор Veo 2, который выдаёт хорошие черрипики результаты в 4К и солидно понимает промт. Но неизвестно когда будет доступен глобально и даст ли цензура тебе сгенерить, что ты хочешь. Также обновили генератор картинок Imagen 3, улучшив качество и следование промту, а плюс представили платформу Whisk, своего рода Comfy без лапши, где можно смешивать картинки без промта.

Midjourney: работают над холстом Patchwork для создания нелинейных интерактивных историй (как и Runway), постепенно выкатывают новую инфраструктуру для персонализации, и дают на праздники всем генераций анлим.

OpenAI: выпустили Sora и Sora Turbo (быстрее, но хуже). 50 генераций в месяц владельцам Plus и 500 быстрых генераций тем у кого Pro. С людьми генерить может только в тарифе за $200/мес, и то не факт. Цензура перекручена. Реакция сообщества смешанная: конкуренты в лице Kling, Minimax, итд уже давно догнали, а в чём-то и прегнали Сору.

Pika: выпустили видеогенератор Pika 2.0 с улучшенным качеством, динамикой, и следованием промту. А также фичей Scene Ingredients, позволяющей загружать картинки с людьми, объектами и локациями, для их соединения в одном видео.

LTX: в версии 0.91 генерация видео стала чётче (пример), интегрировали STG для стабильности кадров, уменьшили количество артефактов. Гитхаб

Сравнение актуальных видеогенераторов бок-о-бок: раз + два + три

Recraft: открыли генерацию картинок по API. И добавили реффки: уважьте дядю не хлеба ради. Вам начислится 200 кредитов после того как зарегаетесь с декстопа и сделаете 1 генерацию. Если у вас только мобилка думаю, если переключить мобильный браузер в режим десктопа должно сработать.

Neurogen: вышла руссифицированна версия дипфейкера RopeMod 2.7.1.

Phygital+: добавили ноду Compose для смешивания до 6 картинок за раз, и генерацию видео через Runway. Плюс обновление сайта.

OiO: подписчик @kostebasov сделал бота OiO, через которого можно генерить видосы из Runway в телеге. Промт можно писать на русском, он автоматом переведётся. Есть и улучшение промта с помощью AI. Я потестил, работает гладко.

Domo AI: обновили модели для генерации видео в стиле аниме (v5) и 3D мультика (v4.), и добавили модель на реализм.

PixVerse: ещё один генератор видео. Очень шустр, хорошо следует промту, даже ваяет надписи/текст, но качество не айс. Хотя есть апскейл до 4к.

FastHunyuan: сторонняя лаба сделала дистиллированную FP8 версию Хуньяня, для качественной генерации в 6 шагов, вместо 50 как у оригинала.

Krea: открыли для всех редактор изображений и тренировку на своих картинках для инпейтинга в сцену.

Инструмент для смены разрешения видео, формата кадра, кодека, и некоторых других параметров. Работает локально в браузере.

BRIA Gen Fill: это удалятор фона обзавёлся инпейтингом, который неплохо работает.
Marigold-DC: улучшенный метод получения карт глубины из контента на котором не тренировали, а также когда параметры с большим разбросом.

PSHuman: получение из одного фото человека его 3D меша. Работает на удивление неплохо.

Leffa: виртуальная примерочная с контролем позы. Есть Comfy.

EdgeCape
: нахождение опорных точек в позе объекта той же категории.

Генератор картинок в трёхмерном стиле. Объекты на пикчах в основном сразу под углом, так что можно сразу кормить их 3D генераторам.

Tencent: релизнули FreeSplatter, генератор 3D по картинке с выбором модели под капотом (Хуньянь или Zero123++). Ещё запилили BrushEdit, для редактирования изображения текстом в автоматическом или ручном режиме. А также ColorFlow для колоризации манги, комиксов, скетчей итд.

FlowEdit: тоже редактор изображения текстом. Для обработки можно выбирать между SD3 или Flux. Промта слушается хорошо даже без настроек, с флюксом артефактов меньше, результат довольно ловкий.

FireFlow: и это редактор изображения текстом. Автоматом подгоняет изображение под х1024, три метода обработки на выбор, можно качество регулировать шагами и другими крутилками.

NVComposer: генерация новых видов из картинки для контроля камеры в видео или получения 3D объекта. Тоже Tencent, кстати.

Исследование на тему параллелизация генерации визуала. Из похожего, например, AsyncDiff и другие проекты на генерацию в распределенке.

InvSR: апскейлер картинок. Зачастую заметно отсебятничает артефактами в деталях.

ObjCtrl-2.5D: выделение элементов картинки и их анимация по заданной траектории. Двухмерные направляющие конвертируются в 3D используя глубину, а передаются на контроль камеры.

OneDiffusion: новый генератор картинок с персонализацией и другими фичами, но пока нужно 40 ГБ VRAM.

GIMM-VFI: интерполяция видео с генерацией промежуточных кадров. (спс @JohnDoe171)

Material Anything: генератор PBR материалов для 3D объектов обзавёлся скриптами для рендера.

MoGe: получение 3D геометрии объекта или сцены (карта точек /меш) из фото.

GSOPS: плагин для работы со сплатами в Houdini обзавёлся коммерческой лицензией.

Stable-diffusion.cpp: инференс SD и Flux на C/C++.

Samurai: сегментатор Samurai прицепили к Nuke.

TRELLIS: генератор 3D из картинок. Может вытаскивать меш в GLB и в виде сплата.

Genesis: платформа симуляции физики для AI-приложений и робототехники. Участников больше, чем звёзд на небе.

MV-Adapter
: генерация разных точек обзора из одной картинки. На удивление юзается SDXL.

Multi-HMR
: вытаскивание из картинки позы и 3D меша одного человека или нескольких людей. Работает шустро и весьма неплохо.

Odyssey: показали Explorer, генератор трёхмерных сцен на сплатах для создания детальных видео. Пока пощупать нельзя.

Маркировка видео кодовой фразой. Устойчиво к лёгким изменениям видоса. Демо.

🎸 ЗВУК 🎸

Suno: мобильные апы для Android и iOS вышли и дают десяток халявных кредитов на V4.

Udio: начислили всем халявных кредитов в честь праздников. Они не сгорят и после.

ElevenLabs: релизнули модель Flash для реалтайм разговоров с задержкой 75 мс (у OpenAI где-то 200 мс). Доступно на их платформе для разработчиков.

MMAudio: генерация аудио для беззвучного видео. 6 ГБ VRAM хватит.

Nexa: модель Omni-2.6B может шустро отвечать текстом на голосовые сообщения, и заточена под мобильные устройства. На русском не лопочет.

OuteTTS: генератор речи (TTS) работающий локально в браузере через WebGPU.
🤖 ЧАТЫ 🤖

DeepSeek: выпустили LLM (языковую модель) DeepSeek V3 с 671B параметров. Показывает себя по многим метрикам лучше других опенсорсных, а также Claude Sonnet и GPT-4o... но весит сотни гигов. Зато обновили V 2.5, она стала лучше в коде, математике и поиске.

TensorRT-LLM: в v 0.16 добавлена поддержка DeepSeek v1, Qwen2-VL, SDXL, и не только.

TensorRT: к v 10.7 добавлена поддержка BF16 и FP8 для пайплайна с Flux Dev и Schnell, а также стриминг весов, и работа в low-vram режиме c 32 ГБ VRAM... в воздухе веет призраком 5090. Хотя какой там призрак, до CES 2025 осталась считай неделя.

Ollama: добавлена поддержка Falcon 3 и ответов структурированных через JSON.

OpenWebUI: появились каналы как в дискорде, для взаимодействия юзеров с ботами; асинхронные чаты, в которых AI будет продолжать генерить в фоновом режиме, пока вкладка не активна; итд.

OpenAI: за 12 дней стримов анонсировали публичный доступ к o1 и o1 Pro за $200/мес, превью o3/o3 mini (бренд o2 занят), поддержку видеострима в голосовом режиме, и другое.

Google: тоже провёл свою презу и представил Gemini 2 Flash, который быстрее предшественника и может помимо текста брать на вход длинные видео + аудио и отвечать по ним голосом, исполнять код, и гуглить. Ещё показали рассуждающую ллм Flash Thinking Experimental как аналог o1. Можно погонять на арене.

X: Илон сделал Grok-2 доступным для всех бесплатно (открывается в боковой панели твиттера по кнопке /). Можно генерить текст и картинки через модель Aurora (сравнение с Flux).

Запрещёнка вышла с ламой 3.3. Только в размере 70B, но говорят выдаёт результаты ламы 3.1 405B. Минимум 26 ГБ VRAM. Ollama плюс хаггинг.

Alibaba: дропнули VLM (визуальную языковую модель) QvQ 72B, превью версию модели с пошаговым мышлением по визуалу. До этого ранее вышла модель чисто по тексту QwQ 32.

Arch: обработчик промтов для AI-агентов. Персонализирует ллм для пользователя, отсеивает джеилбрейки, подрубает вызов функций/RAG, итд.

CrewAI: фреймворк для назначения AI-агентам разных ролей и поручения им заданий. По умолчанию работает с апи OpenAI, но можно подключить локальные ллм.

Replit: их AI-разработчик вышел из раннего доступа и стал доступен публично, но за подписку, минимальная — $25.

InternVL: обновлённый до v 2.5 чат по визуалу в размерах от 1B (смартфоны) до 78B (сервер/рабочая станция). Улучшения в рассуждениях, а также работе с доками и математикой. Лицензия MIT.

Microsoft: дропнули Florence-VL, которая основана на Florence-2, но лучше в работает в формате чата (а не просто распознавания), меньше ловит галлюнов и точнее.

Ещё майки сделали бесплатный тариф Copilot для VS Code с лимитом в 2000 дополнений кода/мес или 50 сообщений к AI. На выбор под капотом GPT-4o или Claude 3.5 Sonnet.

Nvidia: выпустили Jetson Orin Nano, микрокомпьютер для ML задач с 67 TOPS за $249. Похожее — Turing Pi.

Ivy-VL: маленькая моделька (3B) для чата по картинкам и тексту на телефонах и смарт очках.

LG: выпустили ллм EXAONE в размерах от 2.4B до 32B, с фокусом на работе мобильных устройствах и пользовательском железе.

Cohere: сообщество научило модель Aya 8B видеть и отвечать на вопросы по визуалу.

Gradio демка для голосового чата в реалтайме с моделью OpenAI. Нужен их API.

Anthropic: Claude теперь может анализировать крупные эксельки (30 МБ), и фича с анализом работает в мобильной апе.

CogAgent: опенсорсный AI-агент, который может видеть интерфейс пользователя и выполнять задания. Чтобы гонять нужно 29 ГБ VRAM.

TII: выпустили ллм Falcon 3 в размерах от 1B до 10B с контекстом 32К. По сравнению с предыдущей версией модель стала лучше рассуждениях, написании кода и математике.

Apollo: модель, которая может просматривать часовое видео и отвечать по нему.

Подсветка синтаксиса Gradio Lite в VS Code.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
Please open Telegram to view this post
VIEW IN TELEGRAM
Собрал новый комп пару месяцев назад. Теперь дорвался и тестирую подряд все модели, на которые до этого с ноута только облизывался.

При этом он холодны и тихий в отличие от моего ноута, с которым я просидел рядом с 2018 года.

Если интересны характеристики:

Материнка: MEG Z690 ACE
Видюха: 24 ГБ RTX 4090
Проц: i9 12900k
СЖО: EK-Nucleus AIO CR360 Lux D-RGB
Блок питания: 1600 ВТ Cooler Master V 1600 Platinum V2
Оперативка: 128 ГБ DDR5 Kingston Fury Beast
Хранилище: 2 x 4 ТБ NVMe M.2 SSD Kingston KC3000
Корпус: Phanteks Enthoo Pro II Server Edition
Вентиляторы: 5 x Phanteks T30

Причины почему выбраны те или иные комплектующие, и какой паркур по всему миру им пришлось преодолеть, думаю разложить в видосе на ютубе.

Тем, кто задонатил мне на День Рождения, я первым дал в личку ссылки погенерить на нём в Comfy или Forge.

Остальные тоже могут на нём погонять AI-модели или потренить лоры. Просто ставите звёзды постам, и когда их накапливается 50 (можно их и сразу в любой пост вбить), то получаете доступ к модельке раскатанной локально у меня на компе. Это может быть в виде ссылки в посте как мы недавно пробовали, миниапки (тут много плюсов), или контент и UI локально у вас, а моя 4090 по API или ещё как просто удалённо обрабатывает ваши запросы на генерацию.

Тут нужно ещё некоторые вопросы провентилировать, ибо прямого апи на работу со звёздами нет — придётся пойти на некоторый брейкданс с костылями. Но мне нравится вариант, что вы размеренно ставите звёзды понравившимся постам, и хоп: у вас появляется плюха. И я думаю в зависимости от количества поставленных звёзд, плюшек может быть больше, и они могут быть не только в виде компьюта.

Скоро начнём. Stay tuned!
С наступающим Новым Годом, котаны!

Пусть нейронки в 2025 помогут вам добиться новых высот, открыть новые вертикали, освободиться от рутины, и стать продуктивнее.

Впереди интересные времена!
2025/01/01 13:46:05
Back to Top
HTML Embed Code: