Telegram Group Search
Дайджест:

📹 ВИДЕО + АРТ 🎨

Black Forest Labs: выпустили ONNX версии Flux Dev, Schnell, Depth и Canny.

Microsoft: представили RAS, стратегию регионального диффузионного семплинга, ускоряющую генерации в ~2 раза без трени, plug&play.

Anim4gine: две аниме модели. Opt оптимизирована для обычных генераций, а Zero для тренировки лор и файнтюна.

Unity: WebGPU в Unity 6 теперь моно пощупать среди бета релизов. Я погонял шаблон FPS Micro, работкает.

Amazon: выпустили просмотрщик 3D сцен на Babylon.js (есть WebGPU). Будем крутить кроссовки в 3D?

MatAnyone: получение маски одного или нескольких человек на по ключевым точкам. Работает как с видео, так и картинкой.

Magic-1-for-1: новый видеогенератор, который сочетает в себе и text-2-image и image-2-video пайплайн для уменьшение потребления памяти и ускорения генерации. Короткие видео может выдавать за пару секунд. Поддерживает квантизации и другие оптимизации, если нет 30 ГБ VRAM.

FlashVideo: генерация 1080p видео в два захода: создание основы четко следующей промту в 270p используя большинство параметров, а затем через flow matching генерация в 1080p с меньшим количеством параметров. Так получается достичь точного следования промту, и эффективного потребления памяти.

Krea: пришили контроль камеры для видео и "блестящий" эффект в генерацию картинок. Можно попробовать в их недавно выпущенном Krea Chat.

Pika: выпустили инструмент для вкомпаживания объектов в видео Pikaddtitions и промт гайд к нему. Плюс апка на iOS и возможность делать мемы с селфи.

Luma: добавили Ray2 i2v в API.

Google: внедрили видеогенератор Veo 2 в YouTube для создания шортсов в US и ещё паре стран.

Хуньянь: сообщество наваяло комфи ноды HunyuanLoom для редактирования видео (например, замены объектов), используя FlowEdit. Плюс версию для запуска на 8-12 ГБ VRAM. Установка в Pinokio.

Neurogen: собрал портативный FastHunyuan, который со всеми улучшалками выдаёт видео за 80-90 сек на 4090. Плюс дипфейкер VisoMaster с обновлёнными CuDNN и TensorRT.

Pippo: генерация 360° видео с людьми (мультикам обзора) по одному фото.

Adobe: выпустили Firefly в публичной бете. Есть контроль кадра через кейфреймы, но качество сильно отстаёт от конкурентов.

Topaz: представили модель Starlingt для восстановления видео. Попробовать самому тут.

Phygital+: улучшения в апскейле картинок.

EAI-Lab: дропнули On-Device Sora, для генерации видео на iOS. Качество проходное

Lumina: генератор картинок Lumina-Image 2.0 с текстовым энкодером от Gemma 2 и VAE от Flux. Демо.

🎸 ЗВУК 🎸

Suno: добавили Fade Out в редактирование треков.

Zyphra: новый генератор речи (TTS) Zonos-0,1 beta, способный работать в реальном времени, есть клонирование голоса и детальные рульки для управления эмоциями, а также лицензия на коммерческое использование. Натренирован на 200к часов аудио, но про русский не сказано. На 4090 за 1 сек генерит 2 сек аудио. Минимум 6 ГБ VRAM. Есть демо.

Kokoro: эта TTS обзавелась браузерной версией (WebGPU).

Alibaba: выпустили генератор музыки InspireMusic. Работает как на основе текстового промта, так и как продолжатель скормленной демки/семпла. Локально может выдавать до 5 минут в 48 КГц. Коммерческая лицензия Apache 2. Нужно 16-24 ГБ VRAM.

Moonshine: почти реалтайм транскрибатор речи на WebGPU. Результат с таймнгами в txt можно потом скачать. На русском не пашет.
🤖 ЧАТЫ 🤖

OWUI: улучшен интерфейс и вызов функций, добавлен интерпретатор кода, режим использования контекста на полную при поиске в вебе, поддержка Kokoro для TTS, коннект с API локальных или приватных сервисов, и другие ништяки.

Ollama: улучшения в производительности на GPU и CPU за счет использования AVX инструкций.

Hugging.chat: добавил поддержку DeepSeek R1.

X: Илон выпустил Grok 3. В моменте показывает себя лучше всех других ллм. Если нет подписки в твиттере, можно погонять на арене. На сайте пока только Grok 2.

Anthropic: проводят багбаунти с призовым пулом $30к на поиск джейлбреков их языковых моделей (LLM).

DeepSeek: представили NSA, механизм внимания ускоряющий инференс лучше Flash Attention, и удешевляющий тренировку моделей с длинный контекстом.

HuggingFace: в песочнице появился агентный режим, где ты пишешь какое приложение хочешь сделать на основе Gradio и AI его собирает, попутно вправливая баги. Также в Gradio появился компонент для сайдбара и теперь можно делать мульти-страничные приложения.

Arch: фреймворк для работы с AI-агентами обзавёлся API для авторизации в сторонних сервисах. Как это выглядит.

Также от них вышла модель Arch-Function-3B с фокусом на вызове функций.

Zed: этот редактор кода выпустил в опенсорс модель Zeta, которую можно использовать в нём для автозаполнения. Подборка других кодовых редакторов.

Vercel: теперь AI Chatbot поддерживает артефакты, как OWUI или Claude. Гитхаб. Онлайн демо.

Windsurf: в версии V3 этого редактора кода AI-агент может сам выполнять команды в терминале, вызывать сторонние приложения, и табом двигать курсор к следующему месту правки.

Nous: выпустили DeepHermes 3, модель объединяющую в себе архитектуру обычной ллм и с размышлениями.

LLaDa: генерации текста не с лева-направо, а с помощью диффузии. Потенциально можно рендерить сразу страницы/файлы, вместо ожидания когда модель допишет.

IBM: выпустили Granite Vision 3.1, небольшой чат по визуалу (VLM) с коммерческой лицензией Apache 2.

OpenAI: поделились роадмапом на 4.5 и GPT-5, и расшарили гайд как лучше промтить их модели. Обычный поиск теперь работает без авторизации, а глубокий поиск раскатали на мобильное и десктопное приложение. Также увеличили размер памяти на 25% для платных подписчиков, o1 и o3-mini теперь могут принимать файлы, а лимиты o3-mini-high увеличены в 7 раз для владельцев плюсов (50/день).

Perplexity
: на волне хайпа вышли с Deep Research, для глубокого поиска по сети и выпустили R1-1776, версию DeepSeek R1 без цензуры китайской коммунистической партии (you read that right, komrad). Заодно расшарили загрузку файлов бесплатным пользователям. Контекст 1М, можно скормить небольшую библиотеку.

Google: релизнули Gemini 2 (погонять на арене), дали ему память переписок, и раскатали свой Deep Research в паблик. Также запустили фонд для ускорения внедрения AI в веб. Поощряют WebGPU разработки, в частности для использования ллм в браузере. Сделали лекцию и глубокое техническое интро в эту технологию.

Microsoft: выпустили OmniParser, парсер экрана, конвертирующий UI в структурируемые элементы для улучшения работы AI-агентов со зрением.

Также их VS Code c версии 1.97 теперь из коробки имеет GitHub Copilot и появилась экспериментальная поддержка WebGPU.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
а Grok 3 хорош!

Сравнил его с последним Gemini 2 Pro на создании музыкального плеера.

Давай сделаем красивый музыкальный плеер на HTMX и Tailwind визуально похожий на Spotify. Что нужно:

1) возможность выбрать папку с музыкой
2) треки должны отображаться плейлистом
3) их порядок можно менять мышкой
4) не нужно запускать трек при смене его порядка мышкой
5) переключение на следующий или предыдущий трек
6) регулировка громкости


Оба столкнулись с одной и той же ошибкой. Но Грок сразу же её решил, а Gemini продолжал водить по улочкам-закоулочкам.

И у Грока сразу визуальный стиль плеера близкий к тому, что я просил. Причём он даже от себя добавил название артиста/трека слева внизу. Gemini максимально всё упростил, как и другие ллм, которые я пробовал до этого.

Нравится, что оба параллельно учат тебя, объясняя, что в коде происходит и дают советы, что можно улучшить.

Да, длительность трека справа отображается неправильно. Но для прототипа буквально за пару минут, весьма неплохо.

Пробуем сами на арене.

PS: заодно потестил функционал установки превью к видео в телеге. Работкает.
Всевидящий @cgevent подсказал, что Grok 3 завезли погонять в сам твиттер.

От наплыва трафика меня переключило на другую модель, но авось вам повезёт больше.

Тем не менее, я скинул ему код со скрином, мол нужно чтобы длительность треков реальная показывалась, и обложки альбомов отображались где название артиста и трека. Без проблем ваншотнул задачу, и предложил варики как это можно сделать лучше.

Анонс
Попробовать в Твиттере
Попробовать на сайте
iOS
This media is not supported in your browser
VIEW IN TELEGRAM
PlayCanvas: выпустили SuperSplat 2.

Что нового:
* Публикация своих 3D сплатов для шоукейса или ещё-чего. Они будут доступны на https://superspl.at
* Обновлённая анимация камеры по кейфреймам на таймлайне.
* Эксплорер публикаций других пользователей.
* Просмотр сплатов в AR/VR

Для публикации закидываете .ply файл в SuperSplat, далее File —> Publish.

Сайт
Гитхаб
This media is not supported in your browser
VIEW IN TELEGRAM
Хаггинг всё больше обрастает функционалом соцсети вдобавок к AI-гитхабному гену. Можно зафолловить lllyasviel, Kijai, Black Forest Labs, DeepSeek, Qwen, итд и наблюдать когда что-то релизится или получать уведомления.

Такую ленту мы одобряем.
This media is not supported in your browser
VIEW IN TELEGRAM
Больше оптимизаций видеогена!

Hao AI Lab
: выпустили STA (Sliding Tile Attention) для фреймворка FastVideo.

Этот метод ускоряет генерацию 720p в Хуньяне с 15 до 5 мин на H100 (сколько на 4090 не сообщается). Без ощутимой разницы в качестве и доп тренировки.

Ускорение достигается за счёт групповой обработки токенов, а не по отдельности.

Совместимо с TeaCache для ещё большей оптимизации.

Гитхаб
Анонс
This media is not supported in your browser
VIEW IN TELEGRAM
Sakana: сделали AI CUDA Engineer.

Это система AI-агентов, которая может создавать высокооптимизированные ядра CUDA, достигающие 10-100-кратного ускорения по сравнению с обычными операциями машинного обучения в PyTorch.

Sakana верят, что эффективно улучшить AI может только другой AI. В прошлом году они представили эволюционную модель, комбинирующую разные LLM как лего, чтобы получить модель с лучшими качествами за меньшую стоимость. Также от них вышел AI Scientist, автоматизирующий процесс исследования и нахождения новых технологий.

Сначала код на PyTorch переводится в CUDA ядра. Затем, используя эволюцию, идёт оптимизация, где остаются только лучшие ядра. Потом CUDA Engineer создаёт архив инноваций, который используется для ускорения последующих исследований, за счёт накопленного опыта.

Сайт
Хаггинг
This media is not supported in your browser
VIEW IN TELEGRAM
Spotify: разрешил загружать на платформу аудиокниги, озвученные AI от ElevenLabs.

Можно подгрузить свою книгу, выбрать языки (~30) и голоса, озвучить всё, и опубликовать из ElevenLabs на Spotify через их партнёрский сервис Findaway Voices, где можно трекать доход с прослушиваний и статистику.

PS: хейт к спотифай в твиттерстане на 3..2..1...

Я не удивлюсь если Spotify сами будут генерировать тексты и по ним аудиокниги, чтобы повышать свой доход. А то и сами генерить музыку/фоновое аудио через интеграцию со сторонними сервисами. Они только вышли в профит впервые за всё время, и будут искать любые пути его нарастить.

Ждём прямую публикацию с Suno/Udio?

Анонс
Сайт ElevenLabs
Media is too big
VIEW IN TELEGRAM
GSOPs: обновился до V2.5 плагин для работы со сплатами в Houdini.

Что нового:
* Можно вытаскивать меши и менять материалы
* WYSIWYG композиция кадра
* Множество сплатов в сцене
* Применение эффектов (см. Bouncy Castles)
* Работа со сферическими гармониками для сохранения детализации

Гитхаб
This media is not supported in your browser
VIEW IN TELEGRAM
Veo2 завезли во Freepik. Доступно глобально.

Img-2-video пока нет. Как и бесплатных кредитов.

Сайт
Твит
Kyutai: выпустили Hibiki, модель для перевода речи в реальном времени на лету без ожидания, когда один из собеседников закончит говорить. Пока работает только на связке французский-английский.

В эту сторону в прошлом году копала запрещёнка в виде Seamless и смежных моделей.

Но мне релиз интересен другим. Я несколько лет назад был на выставке Hi-Fi / Hi-End музыкального оборудования в отеле Аквариум рядом с Крокусом. Там тьма комнат была снята под выставку, и на одном из этажей я забрёл на стенд узко-специализированного оборудования.

Помню там был микрофон на подставке с кнопкой, и цена 100к+. Я спросил а чё так? Мне сказали, что это система для реалтайм перевода речи спикеров. Соответственно и цены под ЦА.

А сейчас нас опенсорс к этому приближает.

Демо
Гитхаб
PlayCanvas: сделали обёртку вокруг своего API для React.

Разработчики на React могут интегрировать с свои проекты 3D объекты, сплаты, анимации, и эффекты. Есть обработка физики.

Также обновили свой игровой движок до v 2.5. Можно собрать свой 3D редактор с сеткой, камерами, итд.

Анонс
Гитхаб React
Гитхаб движка V 2.5
Pika: погонял Pikaswaps и Pikadditions, для замены объектов на видео и их внедрения соответственно. Можно объект для замены как описать текстом, так и выделить нужное (то-то я думаю куда делся инструмент Modify Region).

Работает не идеально, ожидаемо много черрипиков в твиттере. Но если понимать ограничения технологии, предполагать на чём скорее всего тренировали, и использовать точечно, вроде замены банки ягуара на Koka-Kola, или пустой стадион на полный, то на малом формате в ленте может прокатить.

Потенциально такой инпейнт у них может заменить дипфейк — вместо лица поменять всего человека. Но нужны рульки и стабильность. В этом плане Wonder Studio впереди.

Сейчас на всех пикадишенах, что у меня выходили лицо сильно меняет, и на некоторых почему-то серая полоса сверху, хотя ни на оригинальном видео, ни на рефе такого нет.

Там кстати Корридоры недавно выпустили видос, где обозревают номинантов на оскар за графику. Посмотрите сколько труда и денег ($110 млн) нужно было, чтобы заменить человека на обезьяну в Better Man.

Pikadditions и Pikaswaps доступны на бесплатном тарифе с 80 кредитами в месяц (8 круток).

Сайт
This media is not supported in your browser
VIEW IN TELEGRAM
Suno: добавили на главную персональные рекомендации к прослушиванию.

Также они недавно пришили на страницу трека комменты, что отлично — единое место где можно делиться мнением, искать людей схожих вкусов, или ловить лулзы. Многие на ютубе комменты читают больше, чем видео смотрят.

Я особо там ничего кроме сгенеренного собой не слушал. Кроме колеса Explore — это пушка на которой не только я залип. Поэтому на основе чего он те или иные треки предлагает не совсем ясно. Скорее всего на этом этапе задействован великий рандом. Пишется ожидаемо, что чем больше будешь слушать, тем лучше будут становиться рекомендации. Ну V4 слушабельная, можно будет и попробовать.

В общем, Suno степенно из генератора музыки двигаются в сторону стриминга.

Сайт
Анонс
Кстати, я не обозначил в начале февраля конец Новогодней акции. Исправляем.

Cпасибо всем, кто принял участие! Я продолжал приватно шарить модели и по запросу ставить интересующие нейронки, просто без анонсов, в том числе и потому что маякать месячной акцией, когда до конца января осталось, скажем, 2 недели смысла нет.

За это время выяснили, что эффективно расшаривать от себя и в каком формате, а что будет лучше сделать через облако. Заодно посмотрели как себя ведут Comfy, OWUI (Open WebUI), и Gradio при очередях, выявили баги и нашли обходные пути, оптимизировали пайплайн.

В следующей Новогодней акции хотелось бы что-нибудь замутить с распределенкой. Думаю в течение года что-нибудь опробуем и к тому моменту уже найдём рабочие варианты.
2025/02/24 14:59:10
Back to Top
HTML Embed Code: