Telegram Group Search
LanDiff – гибридный видеогенератор из LLM и Диффузии

Китайцы не спят, а клепают видеомодели. Этот проект интересен своим необычным подходом и результатами. Пишут, что на VBench в отдельных номинациях бьёт и Kling, и Sora (правда, даже по черрипикам так не скажешь), но для своих 5B параметров и датасета в 200M видео-текст пар — очень хороший результат.

Сначала разработчики запилили семантический токенайзер для видео, то есть запихнули 3D представление видео токенов в дискретные 1D коды, чем сжали датасет в 14 000 раз, оптимизировав процесс тренировки. Теперь LLM переводит промпт юзера в семантические токены. Ну а последняя уже делает видос на их основе. То есть эти токены служат не просто промптом, а высокоуровневыми инструкциями для всего процесса генерации.

Таким образом, авторы надеются взять лучшее от двух подходов: смысловое (семантическое) понимание авторегрессионных LLM и качественную картинку диффузионок, которые таким пониманием не обладают.

Черрипики выше — судите сами. Помните, что это всего 5B параметров.


Project page
Пейпер

@ai_newz
RIP Photoshop (нет)

Потестил я мультимодальную Gemini Flash 2.0 (Image Generation) Experimental. Мог бы сказать, что фотошоп в целом больше не нужен, но, блин, эта штука в туории может куда больше, чем мог бы Photoshop. Я совсем не представляю, как можно было бы вручную наложить шоколадный крем на круассаны с первой пикчи. 

Никакой из доступных из коробки методов не способен был такое провернуть. Через ControlNet или inpainting так не сделаешь, потому что они изменяют детали — круассаны будут чуть другими или по-другому лежать. А здесь мы имеем хирургически точное редактирование картинки одним только текстом. Единственный минус пока - это низкая детализация и низкое разрешение генераций.

Другие юзкейсы: 

- Product photo — раньше нужно было бы тренить LoRA, чтобы получить пикчу №2. Нужно больше фотографий + примерно час работы. 
- Character sheet design — пикча №3. По одному концепту получаем разворот с трех сторон для моделлеров. Можно было бы погенерить что-то подобное, но здесь мы видим консистентность, которой раньше было сложно добиться моделями из коробки.
- Нейрофотосессии — пикча №4. Повторяем лицо по одной фотографии так, словно это LoRA для Flux
- Гайды — пикчи №5,6,7. Может на картинке выделять, куда тыкнуть, рисовать консистентные гайды, как здесь в примере с готовкой. 
И т.д.

Вот она, сила мультимодальных моделей. Все это благодаря тому, что тут генерация изображений и LLM объединены вместе. В отличие от, например Flux или Imagen 3, тут картиночные токены выплевываются напрямую из LLM, без вызова диффузии. За счет этого и достигается более нативное редактирование входных картинок. Но такой метод все же пока уступает диффузии в качестве генерации.

Кстати, в Grok такую LLM-генерацию (Aurora) завезли еще в декабре, и ее можно попробовать в Grok3, вот только редактирование там пока отключили.
Что-то подобное показывала OpenAI ещё в прошлом году, но так в прод и не завезли (эх Cэма-Сэма). Если Gemini Flash так хорош и дешевле, то что будет с 4o

Попробовать можно в ai studio.

@ai_newz
Нейродайджест за неделю (#60)
🎉 Юбилейный выпуск!

LLM
- Анонсы OpenAI – докинули удобных фич для API, в том числе computer use.
- Прямое включение – привет с Gemma Developer Day, смотрю на Gemma 3 из первых рук.
- Gemma 3 – топ-2 моделька в опенсорсе сразу после DeepSeek R1, удобно влезает в одну H100/A100 GPU в bf16.
- T-lite и T-pro – челиксы запилили очень подробный техрепорт о тренировке LLM.

Генеративные модели
- LanDiff – еще один видеогенератор, но на этот раз вместе с LLM. Обещает хорошо понимать, что вообще происходит в кадре, за счет семантических токенов.
- Gemini Flash 2.0 – редактируем картинки текстом при помощи мультимодальной LLM.

> Читать дайджест #59

#дайджест
@ai_newz
Трекинг-костюм больше не нужен

Зацените, что может Move AI Gen 2. Трекает действительно очень точно — ну, по крайней мере, на глаз. Может захватить команду футболистов, да ещё и на большом расстоянии.

Вот полный список того, что можно затрекать:
— 3D motion capture
— full-body dynamics
— joint torques
— ground reaction forces
— advanced motion retargeting
— motion prediction

И всё это работает с одной камеры. Ну или с нескольких — для большей точности. В первой версии был реалтайм-режим, так что, скорее всего, и здесь будет. Представьте, как весело актёрам: играешь Годзиллу и в реальном времени видишь себя, крушащего здания на экране, ведь всё это ещё цепляется к Unreal Engine 5.

На сайте можно попробовать самому — дают 30 кредитов на 30 секунд видео. Пока только для первой версии, но даже она справилась с моим бенчмарком. Подписка, правда, какая-то убер-дорогая: $15 за 180 кредитов. Хотя, может, для анимаций в играх хватит.

Стартап совсем не раскрывает своих секретов, ни намёка. Но думаю, скоро такие штуки появятся и в опенсорсе — вот тогда будет весело. Особенно для всяких видео-генераторов.

@ai_newz
Mistral Small обновили

Mistral Small 3.1 обгоняет Gemma 3 по большинству бенчей, с особенно большим отрывом на мультимодальных бенчах. Да и с закрытыми дешёвыми моделями она хороша себя показывает — по мультимодальности Mistral Small рвёт 4o-mini и Haiku 3.5, но отстаёт от Flash 2.0. С текстом всё тоже неплохо, но разрыв с 4o-mini и Haiku 3.5 значительно меньше, а от Gemini модель по прежнему отстаёт.

Модель быстрая — API выдаёт150 токенов в секунду — быстрее лишь Command A от Cohere и 2.0 Flash. Что ещё важно — лицензия у них Apache 2.0, что означает полную свободу делать что угодно с моделью. У той же Gemma 3 лицензия вирусная — под неё подпадают не только тюны, но и модели которые научили на основе данных из Gemma, что может стать проблемой.

@ai_newz
Blackwell Ultra — новые GPU от Nvidia

В новые GB300 докинули памяти до 288 гигабайт, а компьют увеличили в полтора раза — с 10 Dense FP4 петафлопс в GB200, до 15 в GB300. Новые инструкции для аттеншна в два раза быстрее чем аттеншн на оригинальном Blackwell, ждём вайтпейпера с деталями. Пропускную способность памяти вроде не тронули, но изменений за год и так более чем достаточно.

На основе GB300 будут и новые сервера — GB300 NVL72 и HGX B300 NVL16. В новом NVL72 теперь будет 20 терабайт видеопамяти, плюс 40 терабайт LPDDR5X, которые напрямую доступны GPU. Про цену ничего не сказали, но она явно выше 3 миллионов за GB200 NVL72.

@ai_newz
2025/03/21 06:45:26
Back to Top
HTML Embed Code: