Telegram Group Search
This media is not supported in your browser
VIEW IN TELEGRAM
Stream-Omni

чат-бот, похожий на GPT-4o, который поддерживает одновременное взаимодействие с использованием различных типов данных: текста, изображений и речи. Он способен обрабатывать мультимодальные входы и генерировать ответы в виде текста или речи.

Код
Веса

#multimodal #any2any #assistant
Media is too big
VIEW IN TELEGRAM
Обновился прототипизатор программ Memex

- Создание #MCP серверов по текстовому промпту (за 10 минут)

- Teams - cовместная работа

- Agents API - работа с агентами

Промокод DENISK от подписчика @DenisKrasnokutskiy

Пробуем

#vibecoding #coding #mcp
This media is not supported in your browser
VIEW IN TELEGRAM
Творческий конкурс от сервиса создания видеороликов Higgsfield

Призовой фонд 15 000 долларов.
25 победителей.
Скидка 50% для всех новых пользователей.

#news #contest
Forwarded from Data Secrets
This media is not supported in your browser
VIEW IN TELEGRAM
Google показали пример генеративной операционной системы

Это тот самый концепт, о котором так много говорит Карпаты (см. этот и этот посты). Суть в том, что в системе на самом деле нет никаких готовых приложений, никакого предустановленного интерфейса, ничего.

Каждый раз, когда вы на что-то нажимаете, следующий экран полностью генерируется моделью в режиме онлайн. Да, если вы заходите в приложение – оно тоже генерируется с нуля в моменте. Вместо оперативки – контекстное окно: файлы не хранятся, а тоже генерируются каждый раз заново на основе ваших предыдущих действий.

У Google это называется Gemini Computer. Надо сказать, что это не отдельный релиз, а просто демка способностей новой Gemini 2.5 Flash Light, которую вчера выложили на YouTube официального аккаунта.

Мол: посмотрите, новая модель настолько резвая, что с ней можно даже вот такое провернуть (460 токенов в секунду – действительно хороший результат).

В общем, выглядит очень занятно. Google, кажется, первые, кто додумался что-то такое сделать: youtu.be/q6qD_i1Et2w
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Видеоагент(!!!) от Минимакс.

Минимакс, что ты делаешь, прекрати.

И да, это видеоагент, который не только генерит по промпту, а берет на вход идею и наброски, а дальше сам пишет сценарий, генерит и монтирует.

Первый этап уже в бете:
Этап 1: Готовые шаблоны видео-агентов для высококачественных креативных видеороликов. Пользователи просто следуют инструкциям и вводят промпты или изображения — одним щелчком мыши создается готовое видео. Ключевое тут - Шаблоны.

В середине лета(?) будет выпущен:
Этап 2: Полунастраиваемый видеоагент. Пользователи получают возможность редактировать любую часть процесса создания видео: от сценария до визуальных эффектов и закадрового голоса.

Далее:
Этап 3: Полностью автономный, сквозной видеоагент. Полный, интеллектуальный рабочий процесс, который превращает творческую идею в финальное видео с минимальными ручными усилиями.

Этап 1 уже в бете, посмотрите образцы шаблонов вот тут:
https://x.com/MiniMax__AI/status/1935995043430691159
(да, на твитторе можно писать целые статьи)


Что еще известно:


Отход от традиционных рабочих процессов на основе узлов(nodes). Вместо использования жестких цепочек инструментов мы используем вызов инструментов на базе LLM, что позволяет пользователям создавать полноценные видео просто с помощью описаний на естественном языке.
Полный набор инструментов для создания видео. От идеи, поиска ресурсов, раскадровки, монтажа до озвучивания — мы отобрали лучшие инструменты для каждого шага и позволили агенту самостоятельно вызывать их на нужном этапе процесса. Это обеспечивает как гибкость, так и профессиональное качество в каждом коротком видео.
Визуализированные рассуждения и рабочий процесс агента. Пользователи могут просматривать пошаговый мыслительный процесс агента в реальном времени, заглядывая в творческую логику и предлагая интуитивные точки входа для пользовательских правок и тонкой настройки.


Нейромонтаж все ближе!!!

@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
Embodied Web Agents

Веб агент во плоти
Способен взаимодействовать с физическим миром и одновременно использовать информацию из интернета. Это нужно для решения задач, которые требуют знаний и оцифрованных данных, например, приготовление по онлайн-рецептам или навигация с использованием динамических карт

Код

#agent #robot
ImmerseGen: Agent-Guided Immersive World Generation with Alpha-Textured Proxies

Разработка ByteDance.
Создаёт 3D-миры по текстовым описаниям для виртуальной реальности. Сначала формируется базовая местность, а затем добавляются объекты.

Под капотом агенты, работающие на основе визуальных языковых моделей

Код ждем

#VR #vlm #text2scene #text2world
Spline Path Control v2

Контроль движения сплайнами без лишнего промпинга.

Полученное движение предлагают использовать как управляющее видео для VACE

Народное творчество, сделано в DeepSeek + Google Gemini, пользуйтесь пока не сломалось и пока автор не разорился

Код
Попробовать онлайн
воркфлоу

#workflow #motioncontrol #image2video
2025/06/25 01:56:40
Back to Top
HTML Embed Code: