Telegram Group Search
Gen AI Outlook Report 2025 .pdf
9.7 MB
Сохраняйте отчет на 160+ страниц про генеративный ИИ на 2025 год от ЕС

Внутри о том, как генеративный ИИ меняет экономику, госуправление, образование, здравоохранение, культуру и восприятие информации в целом.

Некоторые топики:

– Разумеется, Китай лидирует по объему исследований и подаче патентных заявок.
– Закон о регулировании ИИ вступает в силу в 2026 году.
– GDPR Закон о цифровых услугах теперь распространяется на GenAI, с более строгими правилами для крупных платформ и поисковых систем.
– ЕС хочет ИИ с открытым исходным кодом.
Audio
А вот для всех, кому лень читать 160 страниц отчета из прошлого поста.

Сгенерил короткий подкаст с некоторыми топиками, перед сном послушать.
Давно не было 2D-to-3D моделей

Вот есть Sparc3D, он генерит довольно детализированные модели.

На картинке к посту – Labubu-версия меня. Сгенерил ее изображением и отдал Спарку, он думал 1000 секунд, потом выдал ошибку. Потом снова попробую. Но у других ребят видел результаты – генерит круто. И прикладываю видео тизер демки.

Демо для тестов лежит на ХаггингФэйс.

#3D@TochkiNadAI
Ого, поехали.

YouTube летом добавит в Shorts Veo 3 от Google!

Пока неясно, это будет бесплатно или только по подписке Google AI Pro/Ultra. Это означает, что шортс-раздел будет завален бесконечным количеством генеративных видео. Представляю, какой начнется ад 🙂

Для примера прикрепляю видео. Вот такие ролики набирают десятки миллионов просмотров в Shorts прямо сейчас.
Вчера еще вышел подкаст с Альтманом

Он и Эндрю Мэйн поговорили про GPT-5 и AGI, немного коснулись темы ИИ-девайсов, прайваси и рекламы в ChatGPT.

Смотрим тут.
This media is not supported in your browser
VIEW IN TELEGRAM
Тут кто-то спрашивал недавно про хороший способ клонировать голос

Вот одна из лучших моделей (а скорее всего даже лучшая) на данный момент, вышла в начале месяца обновленная OpenAudio S1.

Можно быстро клонировать голос, поддерживает кучу эмоций. Тестить тут.

#voice@TochkiNadAI
This media is not supported in your browser
VIEW IN TELEGRAM
От первого лица к третьему лицу

UFM (Unified Flow-Matching) умеет искажать изображение так, что кажется, будто вы видите сцену с другого ракурса. Это без 3D, с помощью потока и соответствий.

Эта модель решает сразу две задачи: определяет оптический поток (где и как двигаются пиксели между кадрами) и находит соответствия между разными изображениями (даже если они сняты с разных углов или сильно отличаются по масштабу)

Раньше эти задачи решались посложнее, с кучей стадий. Эта модель:
– на задачах оптического потока точнее на 28% по сравнению с предыдущими SOTA
– на задачах сопоставления ошибок меньше на 62%, и при этом работает почти в 7 раз быстрее.

Внутри UFM сначала использует DINOv2, чтобы закодировать изображения, а потом трансформер сразу выдает поток и маску видимости. Без всяких сложных пайплайнов работает быстро и обучается проще.

Можно потестить, есть демо на HF и код.
Любителям и любительницам детективных романов в реальной жизни.

Это сайт с компроматом на OpenAI, запущенный позавчера. Внутри архив с утечками и публичными расследованиями против компании.

Там и про отказ от некоммерческой миссии, и про AGI, как угрозу всему, и про токсичность Альтмана, которая портит атмосферу внурти.

Еще авторы материала предлагают направления для реформ, чтобы попытаться исправить ситуацию. Предлагают реформы у управлении, культуре прозрачности и безопасности и др.

Полистайте, вот сам архив.
This media is not supported in your browser
VIEW IN TELEGRAM
А вот и у HeyGen появился функционал для продукт плейсмента

Функция называется, как раз – Product Placement👽

– Загружаете фото продукта
– Выбираете аватар
– Добавляете свой сценарий

В общем-то так же, как и у этих ребят, которых недавно обсуждали.

Работает на основе гиперреалистичных жестов и синхронизации губ. Доступно всем на HeyGen, но чтобы было вайтлейбл - надо заплатить 30$.

#ecommerce@TochkiNadAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Поделитесь, кто-нибудь уже внедрил в свои задачи автоматизацию агентами, n8n и прочее?

Какие конкретные процессы удалось настроить и насколько вы стали счастливее?🙂
This media is not supported in your browser
VIEW IN TELEGRAM
Китайский Hailuo 02 (Minimax)

Интернет сходит с ума по роликам, где коты прыгают в бассейн с хорошей физикой брызг. Логичный шаг, на смену бабушкам из Veo 3 пришли коты-спортсмены.

Что умеет:
• Текст → видео и фото → видео.
• Держит одного персонажа во всех сценах (reference images).
• Чистые 5-10 сек на выходе за пару минут.
• Встроенные шаблоны титров, переходов, озвучки.

Hailuo работает в браузере и на мобилках, не требует 4090. Качество ≈ Veo 3.

При регистрации дают бесплатные токены.

#videoGenerative@TochkiNadAI
А видели, что Gemini понимает ваши загруженные видео?

Загружаете видео в Gemini, пишете: что происходит на видео?

И через минуту получаете разбор. ЛЛМ может:
– описать происходящее в кадре
– распознать место съёмки
– ответить на вопросы про конкретные фрагменты (например: что происходит на 1:45?)
– выдать краткое или подробное резюме

Нажмите «+» рядом с полем ввода и выберите «видео». Если оно не серое значит у вас работает.

Даже короткий клип анализирует неплохо.

#videosummary@TochkiNadAI
Эта штука умеет додумывать детали при экстремальном приближении

Метод берет одну фотку и превращает ее в зум-бесконечность. Сначала кадр апскейлится, потом модель генерирует логичное продолжение картинки с высоким разрешением, и так далее.

Я все ждал, что на каком-то этапе начнется генерация инфузорий, но увы.

Пощелкать примеры можно тут.
2025/06/25 17:17:27
Back to Top
HTML Embed Code: