This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
LanDiff – гибридный видеогенератор из LLM и Диффузии
Китайцы не спят, а клепают видеомодели. Этот проект интересен своим необычным подходом и результатами. Пишут, что на VBench в отдельных номинациях бьёт и Kling, и Sora (правда, даже по черрипикам так не скажешь), но для своих 5B параметров и датасета в 200M видео-текст пар — очень хороший результат.
Сначала разработчики запилили семантический токенайзер для видео, то есть запихнули 3D представление видео токенов в дискретные 1D коды, чем сжали датасет в 14 000 раз, оптимизировав процесс тренировки. Теперь LLM переводит промпт юзера в семантические токены. Ну а последняя уже делает видос на их основе. То есть эти токены служат не просто промптом, а высокоуровневыми инструкциями для всего процесса генерации.
Таким образом, авторы надеются взять лучшее от двух подходов: смысловое (семантическое) понимание авторегрессионных LLM и качественную картинку диффузионок, которые таким пониманием не обладают.
Черрипики выше — судите сами. Помните, что это всего 5B параметров.
Project page
Пейпер
@ai_newz
Китайцы не спят, а клепают видеомодели. Этот проект интересен своим необычным подходом и результатами. Пишут, что на VBench в отдельных номинациях бьёт и Kling, и Sora (правда, даже по черрипикам так не скажешь), но для своих 5B параметров и датасета в 200M видео-текст пар — очень хороший результат.
Сначала разработчики запилили семантический токенайзер для видео, то есть запихнули 3D представление видео токенов в дискретные 1D коды, чем сжали датасет в 14 000 раз, оптимизировав процесс тренировки. Теперь LLM переводит промпт юзера в семантические токены. Ну а последняя уже делает видос на их основе. То есть эти токены служат не просто промптом, а высокоуровневыми инструкциями для всего процесса генерации.
Таким образом, авторы надеются взять лучшее от двух подходов: смысловое (семантическое) понимание авторегрессионных LLM и качественную картинку диффузионок, которые таким пониманием не обладают.
Черрипики выше — судите сами. Помните, что это всего 5B параметров.
Project page
Пейпер
@ai_newz
RIP Photoshop (нет)
Потестил я мультимодальную Gemini Flash 2.0 (Image Generation) Experimental. Мог бы сказать, что фотошоп в целом больше не нужен, но, блин, эта штука в туории может куда больше, чем мог бы Photoshop. Я совсем не представляю, как можно было бы вручную наложить шоколадный крем на круассаны с первой пикчи.
Никакой из доступных из коробки методов не способен был такое провернуть. Через ControlNet или inpainting так не сделаешь, потому что они изменяют детали — круассаны будут чуть другими или по-другому лежать. А здесь мы имеем хирургически точное редактирование картинки одним только текстом. Единственный минус пока - это низкая детализация и низкое разрешение генераций.
Другие юзкейсы:
- Product photo — раньше нужно было бы тренить LoRA, чтобы получить пикчу №2. Нужно больше фотографий + примерно час работы.
- Character sheet design — пикча №3. По одному концепту получаем разворот с трех сторон для моделлеров. Можно было бы погенерить что-то подобное, но здесь мы видим консистентность, которой раньше было сложно добиться моделями из коробки.
- Нейрофотосессии — пикча №4. Повторяем лицо по одной фотографии так, словно это LoRA для Flux.
- Гайды — пикчи №5,6,7. Может на картинке выделять, куда тыкнуть, рисовать консистентные гайды, как здесь в примере с готовкой.
И т.д.
Вот она, сила мультимодальных моделей. Все это благодаря тому, что тут генерация изображений и LLM объединены вместе. В отличие от, например Flux или Imagen 3, тут картиночные токены выплевываются напрямую из LLM, без вызова диффузии. За счет этого и достигается более нативное редактирование входных картинок. Но такой метод все же пока уступает диффузии в качестве генерации.
Кстати, в Grok такую LLM-генерацию (Aurora) завезли еще в декабре, и ее можно попробовать в Grok3, вот только редактирование там пока отключили.
Что-то подобное показывала OpenAI ещё в прошлом году, но так в прод и не завезли (эх Cэма-Сэма). Если Gemini Flash так хорош и дешевле, то что будет с 4o?
Попробовать можно в ai studio.
@ai_newz
Потестил я мультимодальную Gemini Flash 2.0 (Image Generation) Experimental. Мог бы сказать, что фотошоп в целом больше не нужен, но, блин, эта штука в туории может куда больше, чем мог бы Photoshop. Я совсем не представляю, как можно было бы вручную наложить шоколадный крем на круассаны с первой пикчи.
Никакой из доступных из коробки методов не способен был такое провернуть. Через ControlNet или inpainting так не сделаешь, потому что они изменяют детали — круассаны будут чуть другими или по-другому лежать. А здесь мы имеем хирургически точное редактирование картинки одним только текстом. Единственный минус пока - это низкая детализация и низкое разрешение генераций.
Другие юзкейсы:
- Product photo — раньше нужно было бы тренить LoRA, чтобы получить пикчу №2. Нужно больше фотографий + примерно час работы.
- Character sheet design — пикча №3. По одному концепту получаем разворот с трех сторон для моделлеров. Можно было бы погенерить что-то подобное, но здесь мы видим консистентность, которой раньше было сложно добиться моделями из коробки.
- Нейрофотосессии — пикча №4. Повторяем лицо по одной фотографии так, словно это LoRA для Flux.
- Гайды — пикчи №5,6,7. Может на картинке выделять, куда тыкнуть, рисовать консистентные гайды, как здесь в примере с готовкой.
И т.д.
Вот она, сила мультимодальных моделей. Все это благодаря тому, что тут генерация изображений и LLM объединены вместе. В отличие от, например Flux или Imagen 3, тут картиночные токены выплевываются напрямую из LLM, без вызова диффузии. За счет этого и достигается более нативное редактирование входных картинок. Но такой метод все же пока уступает диффузии в качестве генерации.
Кстати, в Grok такую LLM-генерацию (Aurora) завезли еще в декабре, и ее можно попробовать в Grok3, вот только редактирование там пока отключили.
Что-то подобное показывала OpenAI ещё в прошлом году, но так в прод и не завезли (эх Cэма-Сэма). Если Gemini Flash так хорош и дешевле, то что будет с 4o?
Попробовать можно в ai studio.
@ai_newz
Нейродайджест за неделю (#60)
🎉 Юбилейный выпуск!
LLM
- Анонсы OpenAI – докинули удобных фич для API, в том числе computer use.
- Прямое включение – привет с Gemma Developer Day, смотрю на Gemma 3 из первых рук.
- Gemma 3 – топ-2 моделька в опенсорсе сразу после DeepSeek R1, удобно влезает в одну H100/A100 GPU в bf16.
- T-lite и T-pro – челиксы запилили очень подробный техрепорт о тренировке LLM.
Генеративные модели
- LanDiff – еще один видеогенератор, но на этот раз вместе с LLM. Обещает хорошо понимать, что вообще происходит в кадре, за счет семантических токенов.
- Gemini Flash 2.0 – редактируем картинки текстом при помощи мультимодальной LLM.
> Читать дайджест #59
#дайджест
@ai_newz
🎉 Юбилейный выпуск!
LLM
- Анонсы OpenAI – докинули удобных фич для API, в том числе computer use.
- Прямое включение – привет с Gemma Developer Day, смотрю на Gemma 3 из первых рук.
- Gemma 3 – топ-2 моделька в опенсорсе сразу после DeepSeek R1, удобно влезает в одну H100/A100 GPU в bf16.
- T-lite и T-pro – челиксы запилили очень подробный техрепорт о тренировке LLM.
Генеративные модели
- LanDiff – еще один видеогенератор, но на этот раз вместе с LLM. Обещает хорошо понимать, что вообще происходит в кадре, за счет семантических токенов.
- Gemini Flash 2.0 – редактируем картинки текстом при помощи мультимодальной LLM.
> Читать дайджест #59
#дайджест
@ai_newz
Трекинг-костюм больше не нужен
Зацените, что может Move AI Gen 2. Трекает действительно очень точно — ну, по крайней мере, на глаз. Может захватить команду футболистов, да ещё и на большом расстоянии.
Вот полный список того, что можно затрекать:
— 3D motion capture
— full-body dynamics
— joint torques
— ground reaction forces
— advanced motion retargeting
— motion prediction
И всё это работает с одной камеры. Ну или с нескольких — для большей точности. В первой версии был реалтайм-режим, так что, скорее всего, и здесь будет. Представьте, как весело актёрам: играешь Годзиллу и в реальном времени видишь себя, крушащего здания на экране, ведь всё это ещё цепляется к Unreal Engine 5.
На сайте можно попробовать самому — дают 30 кредитов на 30 секунд видео. Пока только для первой версии, но даже она справилась с моим бенчмарком. Подписка, правда, какая-то убер-дорогая: $15 за 180 кредитов. Хотя, может, для анимаций в играх хватит.
Стартап совсем не раскрывает своих секретов, ни намёка. Но думаю, скоро такие штуки появятся и в опенсорсе — вот тогда будет весело. Особенно для всяких видео-генераторов.
@ai_newz
Зацените, что может Move AI Gen 2. Трекает действительно очень точно — ну, по крайней мере, на глаз. Может захватить команду футболистов, да ещё и на большом расстоянии.
Вот полный список того, что можно затрекать:
— 3D motion capture
— full-body dynamics
— joint torques
— ground reaction forces
— advanced motion retargeting
— motion prediction
И всё это работает с одной камеры. Ну или с нескольких — для большей точности. В первой версии был реалтайм-режим, так что, скорее всего, и здесь будет. Представьте, как весело актёрам: играешь Годзиллу и в реальном времени видишь себя, крушащего здания на экране, ведь всё это ещё цепляется к Unreal Engine 5.
На сайте можно попробовать самому — дают 30 кредитов на 30 секунд видео. Пока только для первой версии, но даже она справилась с моим бенчмарком. Подписка, правда, какая-то убер-дорогая: $15 за 180 кредитов. Хотя, может, для анимаций в играх хватит.
Стартап совсем не раскрывает своих секретов, ни намёка. Но думаю, скоро такие штуки появятся и в опенсорсе — вот тогда будет весело. Особенно для всяких видео-генераторов.
@ai_newz
Mistral Small обновили
Mistral Small 3.1 обгоняет Gemma 3 по большинству бенчей, с особенно большим отрывом на мультимодальных бенчах. Да и с закрытыми дешёвыми моделями она хороша себя показывает — по мультимодальности Mistral Small рвёт 4o-mini и Haiku 3.5, но отстаёт от Flash 2.0. С текстом всё тоже неплохо, но разрыв с 4o-mini и Haiku 3.5 значительно меньше, а от Gemini модель по прежнему отстаёт.
Модель быстрая — API выдаёт150 токенов в секунду — быстрее лишь Command A от Cohere и 2.0 Flash. Что ещё важно — лицензия у них Apache 2.0, что означает полную свободу делать что угодно с моделью. У той же Gemma 3 лицензия вирусная — под неё подпадают не только тюны, но и модели которые научили на основе данных из Gemma, что может стать проблемой.
@ai_newz
Mistral Small 3.1 обгоняет Gemma 3 по большинству бенчей, с особенно большим отрывом на мультимодальных бенчах. Да и с закрытыми дешёвыми моделями она хороша себя показывает — по мультимодальности Mistral Small рвёт 4o-mini и Haiku 3.5, но отстаёт от Flash 2.0. С текстом всё тоже неплохо, но разрыв с 4o-mini и Haiku 3.5 значительно меньше, а от Gemini модель по прежнему отстаёт.
Модель быстрая — API выдаёт150 токенов в секунду — быстрее лишь Command A от Cohere и 2.0 Flash. Что ещё важно — лицензия у них Apache 2.0, что означает полную свободу делать что угодно с моделью. У той же Gemma 3 лицензия вирусная — под неё подпадают не только тюны, но и модели которые научили на основе данных из Gemma, что может стать проблемой.
@ai_newz
Blackwell Ultra — новые GPU от Nvidia
В новые GB300 докинули памяти до 288 гигабайт, а компьют увеличили в полтора раза — с 10 Dense FP4 петафлопс в GB200, до 15 в GB300. Новые инструкции для аттеншна в два раза быстрее чем аттеншн на оригинальном Blackwell, ждём вайтпейпера с деталями. Пропускную способность памяти вроде не тронули, но изменений за год и так более чем достаточно.
На основе GB300 будут и новые сервера — GB300 NVL72 и HGX B300 NVL16. В новом NVL72 теперь будет 20 терабайт видеопамяти, плюс 40 терабайт LPDDR5X, которые напрямую доступны GPU. Про цену ничего не сказали, но она явно выше 3 миллионов за GB200 NVL72.
@ai_newz
В новые GB300 докинули памяти до 288 гигабайт, а компьют увеличили в полтора раза — с 10 Dense FP4 петафлопс в GB200, до 15 в GB300. Новые инструкции для аттеншна в два раза быстрее чем аттеншн на оригинальном Blackwell, ждём вайтпейпера с деталями. Пропускную способность памяти вроде не тронули, но изменений за год и так более чем достаточно.
На основе GB300 будут и новые сервера — GB300 NVL72 и HGX B300 NVL16. В новом NVL72 теперь будет 20 терабайт видеопамяти, плюс 40 терабайт LPDDR5X, которые напрямую доступны GPU. Про цену ничего не сказали, но она явно выше 3 миллионов за GB200 NVL72.
@ai_newz