Telegram Group Search
Media is too big
VIEW IN TELEGRAM
Minimax Hailuo 02

Главная новость минувшей ночи

Новый видеоген, побивший на арене VEO3 Preview

- лучший в своем классе по следованию промпту
- нативный 1080p
- умеет в акробатику и прочую экстремальную физику

Из описания бесплатного тарифа убрали ежедневную раздачу кредитов. Press F

На офсайте его нет (у меня, я халявщик) но есть во вчера релизнутом агенте MiniMax-M1
Говорят, там вообще даром и пусть никто не уйдет обиженным

- Самое длинное в мире контекстное окно: ввод 1 млн токенов, вывод 80 тыс.
- SOTA по агентам в опенсорсе
- RL с непревзойденной эффективностью: обучение всего за 534 700 долларов

HF
Гитхаб
Чат

#text2video #agent #sota #assistant
This media is not supported in your browser
VIEW IN TELEGRAM
Proactor

первый в мире проактивный ИИ-агент, который работает в реальном времени, анализирует обсуждения, выявляет потенциальные потребности и выполняет задачи до того, как пользователь их сформулирует. Он самостоятельно нажимает красную кноп включается в разговор, чтобы предоставить транскрипцию, резюме и помощь в режиме реального времени.

Записаться в вейтлист

#agent #realtime
This media is not supported in your browser
VIEW IN TELEGRAM
Chatterbox Audiobook Generator

По Chatterbox уже много свистоперделок вышло, вот одна из них. Мультиголосовой генератор аудиокниг / подкастов

Код

#audiobook #tts #text2audiobook #podcast #text2podcast
This media is not supported in your browser
VIEW IN TELEGRAM
Ego-R1

Система для анализа сверхдлинных эгоцентрических видеозаписей (#POV) (длительностью в дни и недели). Использование структурированного процесса Chain-of-Tool-Thought (CoTT) позволяет агенту Ego-R1 шаг за шагом анализировать видео, используя различные инструменты.

Гитхаб

#agent #video2text @reasoning
Midjourney Video V1

Главная новость минувшей ночи: у MidJourney теперь тоже свой видеогенератор.

480p, фокус на красоте, доступен на тарифе за 10$/месяц

А знаете у кого еще? У Nijijourney разумеется. Блог

#image2video
OpenAI разрешили всем генерить картинки в WhatsApp по бесплатному номеру 1-800-242-8478.

Без привязки аккаунта OpenAi можно аж одно изображение в день. Захотите привязать аккаунт - напишите боту "Link my WhatsApp with ChatGPT"

#text2image #imageediting
Align Your Flow: Scaling Continuous-Time Flow Map Distillation

NVIDIA придумали способ улучшить генерацию картинок, SOTA на ImageNet

Основная идея заключается в использовании модели потока (flow map), которая позволяет эффективно преобразовывать шумное изображение в чистое за несколько шагов, избегая накопления ошибок, характерного для других методов. Это обеспечивает высокое качество изображений при меньшем количестве шагов генерации.

Код ждем

#text2image
This media is not supported in your browser
VIEW IN TELEGRAM
Stream-Omni

чат-бот, похожий на GPT-4o, который поддерживает одновременное взаимодействие с использованием различных типов данных: текста, изображений и речи. Он способен обрабатывать мультимодальные входы и генерировать ответы в виде текста или речи.

Код
Веса

#multimodal #any2any #assistant
Media is too big
VIEW IN TELEGRAM
Обновился прототипизатор программ Memex

- Создание #MCP серверов по текстовому промпту (за 10 минут)

- Teams - cовместная работа

- Agents API - работа с агентами

Промокод DENISK от подписчика @DenisKrasnokutskiy

Пробуем

#vibecoding #coding #mcp
This media is not supported in your browser
VIEW IN TELEGRAM
Творческий конкурс от сервиса создания видеороликов Higgsfield

Призовой фонд 15 000 долларов.
25 победителей.
Скидка 50% для всех новых пользователей.

#news #contest
Forwarded from Data Secrets
This media is not supported in your browser
VIEW IN TELEGRAM
Google показали пример генеративной операционной системы

Это тот самый концепт, о котором так много говорит Карпаты (см. этот и этот посты). Суть в том, что в системе на самом деле нет никаких готовых приложений, никакого предустановленного интерфейса, ничего.

Каждый раз, когда вы на что-то нажимаете, следующий экран полностью генерируется моделью в режиме онлайн. Да, если вы заходите в приложение – оно тоже генерируется с нуля в моменте. Вместо оперативки – контекстное окно: файлы не хранятся, а тоже генерируются каждый раз заново на основе ваших предыдущих действий.

У Google это называется Gemini Computer. Надо сказать, что это не отдельный релиз, а просто демка способностей новой Gemini 2.5 Flash Light, которую вчера выложили на YouTube официального аккаунта.

Мол: посмотрите, новая модель настолько резвая, что с ней можно даже вот такое провернуть (460 токенов в секунду – действительно хороший результат).

В общем, выглядит очень занятно. Google, кажется, первые, кто додумался что-то такое сделать: youtu.be/q6qD_i1Et2w
2025/06/25 11:10:04
Back to Top
HTML Embed Code: