Telegram Group Search
Luma: начали выдавать доступ к своему новому видеогенератору Ray 2.

Модель натренирована напрямую на видео высокого качества, и хорошо понимает как в кадре должно работать взаимодействие людей, животных, и объектов. А также как создавать стабильных персонажей.

Может выдавать 1080p длиной 5-10 сек на основе текста или картинок.

Больше примеров в твиттере и по хэштегу #Ray2 там же.

Сайт
Amazon Bedrock
This media is not supported in your browser
VIEW IN TELEGRAM
Krea: добавили к себе генерацию видео в Kling 1.6, Хуньянь, и 01-Live (Хайлуо). Также теперь к нему можно генерить и звук.

Бесплатным пользователям дали доступ к генерации видео.

Твит
Котаны, на Tripo3D набралось 30 зарегавшихся по моей ссылке. Можно заклеймить Pro подписку и сделать обзор всех фич.

Кидайте в комменты ваши картинки/текст, которые хотите сгенерить в 3D, опробуем.
Дайджест:

📹 ВИДЕО + АРТ 🎨

Pika
: добавили Turbo режим, позволяющий генерить видео в 3 раза быстрее, в 7 раз дешевле, и ,по заверениям, особой без потери качества. Также выпустили Pika V 2.1, генерящую видео в 1080p, высокой детализаций, контролем камеры и четким следованием промту. Ещё появилась апа для iOS.

Nvidia: выкатили генератор картинок SANA-1.5, который может выдавать 4096x4096 меньше, чем за 1 секунду на 16 ГБ VRAM ноуте. Релизу идёт 8-битный оптимизатор для экономии VRAM во время тренировки и масштабирования с 1.6B до 4.8B плюс 4-битный движок для инференса на 8 ГБ VRAM (демо). Также чуть ранее они выпустили генератор видео Cosmos, который выдаёт 1280x704 длиной в 121 кадр за 10 мин на 4090.

Tripo: в версии V2.5 улучшена геометрия мешей (особенно с острыми углами). Улучшенный PBR рендеринг.

ACE++: фреймворк для получения стабильных персонажей и объектов при их генерации на картинках.

HeyGen: добавили к контроль камеры к видео с аватарами. Даёте описание желаемого движения и вперед.

Sa2VA: выделение объектов на видео промтом. Работает на связке SAM2 и LLaVA.

Sketch-to-3D: делаем набросок от руки и получаем 3D объект через Trellis.

ZLUDA: CUDA для видюх AMD. Появились ночные релизы.

Hailuo: релизнули генератор видео T2V-01-Director с фокусом на контроле камеры промтом, её кинематографичных движениях и переходах. Помимо этого внедрили генерацию стабильных персонажей по реф картинке в модели S2V-01.

Kling: Добавили в V 1.6 генерацию видео по начальному и конечному кадру, мемные эффекты к видео как в Pika, а также фичу Elements, которая берёт элементы с нескольких реф картинок и делает, например, стабильного персонажа в нужном сеттинге. Для генерации картинок в Kolors завезли работу по рефу. Ещё Kling обзавёлся мобильной апой (iOS или Android). Что занятно, похожие мемные эффекты и комбинирование элементов недавно запилили у себя Pika.

DiffSplat: шустрый генератор 3D на основе сплатов и t2i диффузионных моделей.

MangaNinja: колоризация манги.

Frame Painter: интерактивное редактирование изображения скетчем на основе видео диффузионных приоров.

Luma: теперь можно апскейлить сгенерированные видео до 4К, и выпустили API для Ray 2.

HipScript: онлайн компилятор CUDA и HIP кода для WebGPU.

Comfy: завели реестр кастомных нод, упростили установку десктопного приложения, добавили поддержку 5090... которые так пока никто пощупать и не может.

Кстати воркфлоу теперь можно конвертировать в интерфейс на Gradio и публиковать на Хаггинге.

Netflix: выпустили модель для анимации картинок, через перетаскивание выделенных объектов на них.

Krea: объекты на реф картинках теперь можно конвертировать в 3D и крутить/перемещать/совмещать их в сцене до нужного результата. Если целевой объект, стиль, или продукт нужно сгенерить, то как раз завезли реалтайм тренировку — можно тренить, скажем персонажа, и крутить его в сцене. Или воспользоваться интегрированными стабильными персонажами Hailuo.

Runway: выпустили генератор картинок Frames. На этой странице можно посмотреть примеры генераций картинок во Frames и промты к ним. Плюс релизнули апскейл до 4k.

Midjourney: теперь можно смешивать несколько мудборд кодов, а также смешиват их со sref кодами.

Sony: исследование по тренировке микробюджетных генераторов картинок — Microdiffusion.

Tencent: выпустили Хуньянь 3D V2, который делает 3D меш по картинке на уровне Trellis. Лучше всего работает если закидывать объект под углом со считываемым освещением. Нужно минимум 8 ГБ VRAM. Сообщество уже наваяло аддон для блендора, портативную сборку на Windows, поддержку в комфи от Kijai, вписали модель в ComfyUI-3D-Pack.

Для видеогенератора Хуньянь GPU Poor версия (от 12 ГБ VRAM) обзавелась поддержкой лор и TeaCache для ускоренной генерации с меньшим количеством артефактов. В комфи от Kijai добавился улучшитель Enhance-A-Video, генерация в IP2V режиме (vlm вытаскивает описание реф картинки и скармливает видеогенератору).
DeepSeek: сделали модель Janus Pro 7B, которая может и генерить картинки (не убийца Flux конечно) и чатиться по загруженным.

Flex.1 Alpha
: Ostris сделал версию Flux на основе шнель с лицензией Apache. 8B параметров, можно гонять на видюхе.

SVFR: фреймворк для восстановления лиц на видео. Есть колоризация, инпейтинг, BFR.

Phygital+: улучшения в генерации 3D по картинке, поддержка лор на Flux.

PAR: параллелизация генераций без изменения архитектуры и токенайзера.

FitDit: новая виртуальная примерочная. Есть комфи.

DiffuEraser: сегментируем объекты на видео и удаляем их с учётом фона через инпейнт.

Google: дают пощупать Imagen 3, нужен IP на США.

Alibaba: по-тихому выпустили свой генератор видео в чате с Qwen. Примеры генераций.

Создание векторной бд с данными о видео записях, чтобы потом быстро находить нужный видос по кадру. Похоже на Marengo, только с CLI + Comfy.

Video Depth Anything: получаем карту глубины видео.

Shuttle Jaguar: генератор картинок с фокусом на эстетичных кадрах.

Hallo: выпустили V 3 аниматора портретов и датасет на хаггинге.

🎸 ЗВУК 🎸

YuE: новый опенсорсный генератор музыки. Пока песочно и дизгармонично (не конкурент Udio или Suno), но лучше MusicGen и любой движ в эту сторону уже хорошо. В принципе для инструменталок или семплов может сгодиться. Лицензия на днях сменилась на Apache, что позволяет коммерческое использование.

Suno: V4 стала доступна всем. Плюс треки в своей библиотеке теперь можно группировать в рабочие пространства (Workspaces). И появился AI-соавтор музыки для детальной работы с лирикой.

Riffusion: представили генератор музыки FUZZ. Звучит годно (не только на поп/рэп) и есть инструменты для контроля аудио. Небольшая предыстория проекта.

MMaudio: генератор аудио, анализирующий беззвучное видео и выдающий походящий звук. Крутилки в наличии.

Style TTS 2: давний генератор речи и клонер голоса, для которого появился установщик в Pinokio. Ещё есть демка.

Hailuo: сделали модель для работы с голосом T2A-01. Есть клонирование, генератор речи (TTS), и изоляция голоса. Крутилки присутствуют. В наличии HD версия для результатов в высоком качестве, и Turbo.

Kokoro: маленький, шустрый, и неплохой генератор речи, который можно гонять дома, а генерации использовать в коммерческих целях (Apache 2). Русского нет, но можно научить. Можно смешивать голоса в студии.. Гитхаб
🤖 ЧАТЫ 🤖

PyTorch: вышла V 2.6: появилась поддержка FP16 для x86 процессоров как в режиме eager, так и в режиме Inductor; улучшена работоспособность на видюхах Intel; и другое по мелочи.

Deepseek: про R1 отдельно поговорим.

OWUI: в релизах 0.5.4 — 7 теперь есть нативный тег thinking для моделей вроде DeepSeek R1, можно делиться чатами, расширенное управление моделями и правами пользователей, итд.

LM Studio: в V 0.3.7 — 9 thinking UI для DeepSeek R1, поддержка KV кэша для llama.cpp моделей, улучшение рендеринга LaTeX, улучшения в рантаймах.

Sakana: представили Transformer², систему в которой веса модели автоматически адаптируются под задачи. Так же они выпустили маленькую языковую модель, заточенную эффективно работать на мобилках. Правда только на японском.

OpenAI: выкатили агента Deep Research, который может глубоко уходить в анализ и возвращаться, когда всё прошерстил. Открыли бесплатным пользователям доступ к 03 mini (её натальная системная карта). Canvas теперь работает с o1 и может рендерить код на HTML и React. Также выпустили фичу Operator, позволяющую давать AI-агенту контроль над браузером. Для Pro подписчиков в США.

Browser Use: или дай опенсорсному AI-агенту на выбор выполнять задания у тебя в браузере бесплатно.

Bytedance: релизнули UI-TARS, фреймворк для выполнения AI-агентом заданий на компьютере, а не только в браузере.

Hailuo: выпустили в опенсорс генератор текста MiniMax-Text-01 размером 456B с контекстом 4М токенов (можно скормить библиотеку, но дома не погонять). Плюс чат по картинкам MiniMax-VL-01, но он тоже здоровый.

HuggingFace: запартнёрились с провайдерами компьюта Replicate, TogetherAI, Fal, итд. Теперь можно запускать модели прямо на Хаггинге при наличии API ключа. Реквистирую Runpod!

Alibaba: на волне хайпа по DeepSeek R1 вышли с Qwen2.5-Max самой мощной моделью в их линейке (доступна только в облаке), и Qwen2.5-1M с контекстом 1М (вагон документации) в размерах от 7B до 14B (можно гонять на видюхах). Также подогнали визуальную языковую модель Qwen 2.5 VLдля чата по видео и картинками, для которой народ уже сделал MLX на маки. Онлайн демо здесь или тут.

Tencent: выпустили языковые модели Hunyuan Large размером 389B и помельче 7B в виде Instruct и Pretrain вариков. Плюс размышляющую ллм Doubao 1.5 Pro на архитектуре MoE.

Mistral: выложили ллм Small 3, которая влезает в 4090 и на их бенчах кладёт модели размером 70B.

Perplexity: представили поисковую систему Sonar и Sonar Pro для соперничества с браузерными поисковиками и ллм.

Google: выпустили обновлённый Gemini Flash Thinking 01-21. Погоняй на арене.

X-Plug (alibaba): AI-агент для выполнения заданий на смартфоне.

VideoLlama3: обновлённые VLM для чата по видео и картинкам в размерах 2B и 7B.

AllenAI: выпустили Tülu 3 размером от 8B до 405B. Использование метода RLVR улучшило результаты в математике.

Anthropic: Claude теперь может цитировать ваши источники по API.

SmollVLM: выложен код использованный для тренировки модели.

OmAgent: библиотека на питоне для разработки AI-агентов.

Autonomy-of-Experts Models: исследование архитектуры с улучшенным взаимодействием экспертов, чем в MoE.

RLVR: Метод Reinforcement Learning with Verifiable Rewards, показывает себя лучше CoT в определенных задачах.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
Please open Telegram to view this post
VIEW IN TELEGRAM
2025 только начался, а OTOY уже приглашает тебя в 2026.

OctaneRender, движок для рендеринга 3D и эффектов, обзавёлся поддержкой сплатов в версии 2026.1 Alpha 1.

На видео показано как сплаты рендерятся в реальном времени при работе с DOF камеры, и как меняется освещение, когда другой объект добавляется в сцену.

Сплаты с трассировкой лучей работают медленнее, чем подходы на основе растеризации, однако есть все преимущества рейтрейсинга: сплаты видны в отражениях и преломлениях, могут освещать объекты сцены и отбрасывать на них тени.

Также внедряют поддержку разных AI сервисов: Kling, Luma, Black Forest Labs (Flux), итд.

Сайт
Скачать
This media is not supported in your browser
VIEW IN TELEGRAM
Pinokio к версии 3.6 так нормально проапгрейдили. Наконец-то есть домашняя страница с иконками AI-приложений. Также пофиксили много багов всплывавших при установке, перешли на UV для ускорения загрузки, и ещё много всего подкапотного.

Заставку можно менять, кстати.

Сайт
Скачать
2025/03/27 18:47:17
Back to Top
HTML Embed Code: