Media is too big
VIEW IN TELEGRAM
Minimax Hailuo 02
Главная новость минувшей ночи
Новый видеоген, побивший на арене VEO3 Preview
- лучший в своем классе по следованию промпту
- нативный 1080p
- умеет в акробатику и прочую экстремальную физику
Из описания бесплатного тарифа убрали ежедневную раздачу кредитов. Press F
На офсайте его нет (у меня, я халявщик) но есть во вчера релизнутом агенте MiniMax-M1
Говорят, там вообще даром и пусть никто не уйдет обиженным
- Самое длинное в мире контекстное окно: ввод 1 млн токенов, вывод 80 тыс.
- SOTA по агентам в опенсорсе
- RL с непревзойденной эффективностью: обучение всего за 534 700 долларов
HF
Гитхаб
Чат
#text2video #agent #sota #assistant
Главная новость минувшей ночи
Новый видеоген, побивший на арене VEO3 Preview
- лучший в своем классе по следованию промпту
- нативный 1080p
- умеет в акробатику и прочую экстремальную физику
Из описания бесплатного тарифа убрали ежедневную раздачу кредитов. Press F
На офсайте его нет (у меня, я халявщик) но есть во вчера релизнутом агенте MiniMax-M1
Говорят, там вообще даром и пусть никто не уйдет обиженным
- Самое длинное в мире контекстное окно: ввод 1 млн токенов, вывод 80 тыс.
- SOTA по агентам в опенсорсе
- RL с непревзойденной эффективностью: обучение всего за 534 700 долларов
HF
Гитхаб
Чат
#text2video #agent #sota #assistant
Нейронавт | Нейросети в творчестве
Topaz Labs Astra "Первый в мире" (ага) креативный апскейлер видео. Предлагают апскейлить сгенерарованные нейросетками видео до 4K, "с улучшением качества и добавлением мельчайших деталей". Под капотом новые модели Starlight Умеет делать интерполяцию кадров…
хорошие новости. Сходите в тред Астры проверьте не подтвердили ли вам ранний доступ. Если просили конечно
This media is not supported in your browser
VIEW IN TELEGRAM
Proactor
первый в мире проактивный ИИ-агент, который работает в реальном времени, анализирует обсуждения, выявляет потенциальные потребности и выполняет задачи до того, как пользователь их сформулирует. Он самостоятельнонажимает красную кноп включается в разговор, чтобы предоставить транскрипцию, резюме и помощь в режиме реального времени.
Записаться в вейтлист
#agent #realtime
первый в мире проактивный ИИ-агент, который работает в реальном времени, анализирует обсуждения, выявляет потенциальные потребности и выполняет задачи до того, как пользователь их сформулирует. Он самостоятельно
Записаться в вейтлист
#agent #realtime
This media is not supported in your browser
VIEW IN TELEGRAM
Chatterbox Audiobook Generator
По Chatterbox уже много свистоперделок вышло, вот одна из них. Мультиголосовой генератор аудиокниг / подкастов
Код
#audiobook #tts #text2audiobook #podcast #text2podcast
По Chatterbox уже много свистоперделок вышло, вот одна из них. Мультиголосовой генератор аудиокниг / подкастов
Код
#audiobook #tts #text2audiobook #podcast #text2podcast
This media is not supported in your browser
VIEW IN TELEGRAM
Ego-R1
Система для анализа сверхдлинных эгоцентрических видеозаписей (#POV) (длительностью в дни и недели). Использование структурированного процесса Chain-of-Tool-Thought (CoTT) позволяет агенту Ego-R1 шаг за шагом анализировать видео, используя различные инструменты.
Гитхаб
#agent #video2text @reasoning
Система для анализа сверхдлинных эгоцентрических видеозаписей (#POV) (длительностью в дни и недели). Использование структурированного процесса Chain-of-Tool-Thought (CoTT) позволяет агенту Ego-R1 шаг за шагом анализировать видео, используя различные инструменты.
Гитхаб
#agent #video2text @reasoning
Midjourney Video V1
Главная новость минувшей ночи: у MidJourney теперь тоже свой видеогенератор.
480p, фокус на красоте, доступен на тарифе за 10$/месяц
А знаете у кого еще? У Nijijourney разумеется. Блог
#image2video
Главная новость минувшей ночи: у MidJourney теперь тоже свой видеогенератор.
480p, фокус на красоте, доступен на тарифе за 10$/месяц
А знаете у кого еще? У Nijijourney разумеется. Блог
#image2video
OpenAI разрешили всем генерить картинки в WhatsApp по бесплатному номеру 1-800-242-8478.
Без привязки аккаунта OpenAi можно аж одно изображение в день. Захотите привязать аккаунт - напишите боту "Link my WhatsApp with ChatGPT"
#text2image #imageediting
Без привязки аккаунта OpenAi можно аж одно изображение в день. Захотите привязать аккаунт - напишите боту "Link my WhatsApp with ChatGPT"
#text2image #imageediting
MiniMax-Remover : Taming Bad Noise Helps Video Object Removal
Это нам нужно
Клинап (удаление) объектов на видео
К одноименному видеогенератору отношения не имеет (кажется)
Код
Демо ждем
Веса
ComfyUI
#cleanup #videoinpainting #objectremoval
Это нам нужно
Клинап (удаление) объектов на видео
К одноименному видеогенератору отношения не имеет (кажется)
Код
Демо ждем
Веса
ComfyUI
#cleanup #videoinpainting #objectremoval
Align Your Flow: Scaling Continuous-Time Flow Map Distillation
NVIDIA придумали способ улучшить генерацию картинок, SOTA на ImageNet
Основная идея заключается в использовании модели потока (flow map), которая позволяет эффективно преобразовывать шумное изображение в чистое за несколько шагов, избегая накопления ошибок, характерного для других методов. Это обеспечивает высокое качество изображений при меньшем количестве шагов генерации.
Код ждем
#text2image
NVIDIA придумали способ улучшить генерацию картинок, SOTA на ImageNet
Основная идея заключается в использовании модели потока (flow map), которая позволяет эффективно преобразовывать шумное изображение в чистое за несколько шагов, избегая накопления ошибок, характерного для других методов. Это обеспечивает высокое качество изображений при меньшем количестве шагов генерации.
Код ждем
#text2image
This media is not supported in your browser
VIEW IN TELEGRAM
Stream-Omni
чат-бот, похожий на GPT-4o, который поддерживает одновременное взаимодействие с использованием различных типов данных: текста, изображений и речи. Он способен обрабатывать мультимодальные входы и генерировать ответы в виде текста или речи.
Код
Веса
#multimodal #any2any #assistant
чат-бот, похожий на GPT-4o, который поддерживает одновременное взаимодействие с использованием различных типов данных: текста, изображений и речи. Он способен обрабатывать мультимодальные входы и генерировать ответы в виде текста или речи.
Код
Веса
#multimodal #any2any #assistant
Media is too big
VIEW IN TELEGRAM
Обновился прототипизатор программ Memex
- Создание #MCP серверов по текстовому промпту (за 10 минут)
- Teams - cовместная работа
- Agents API - работа с агентами
Промокод
Пробуем
#vibecoding #coding #mcp
- Создание #MCP серверов по текстовому промпту (за 10 минут)
- Teams - cовместная работа
- Agents API - работа с агентами
Промокод
DENISK
от подписчика @DenisKrasnokutskiyПробуем
#vibecoding #coding #mcp
This media is not supported in your browser
VIEW IN TELEGRAM
Творческий конкурс от сервиса создания видеороликов Higgsfield
Призовой фонд 15 000 долларов.
25 победителей.
Скидка 50% для всех новых пользователей.
#news #contest
Призовой фонд 15 000 долларов.
25 победителей.
Скидка 50% для всех новых пользователей.
#news #contest
Forwarded from Data Secrets
This media is not supported in your browser
VIEW IN TELEGRAM
Google показали пример генеративной операционной системы
Это тот самый концепт, о котором так много говорит Карпаты (см. этот и этот посты). Суть в том, что в системе на самом деле нет никаких готовых приложений, никакого предустановленного интерфейса, ничего.
Каждый раз, когда вы на что-то нажимаете, следующий экран полностью генерируется моделью в режиме онлайн. Да, если вы заходите в приложение – оно тоже генерируется с нуля в моменте. Вместо оперативки – контекстное окно: файлы не хранятся, а тоже генерируются каждый раз заново на основе ваших предыдущих действий.
У Google это называется Gemini Computer. Надо сказать, что это не отдельный релиз, а просто демка способностей новой Gemini 2.5 Flash Light, которую вчера выложили на YouTube официального аккаунта.
Мол: посмотрите, новая модель настолько резвая, что с ней можно даже вот такое провернуть (460 токенов в секунду – действительно хороший результат).
В общем, выглядит очень занятно. Google, кажется, первые, кто додумался что-то такое сделать: youtu.be/q6qD_i1Et2w
Это тот самый концепт, о котором так много говорит Карпаты (см. этот и этот посты). Суть в том, что в системе на самом деле нет никаких готовых приложений, никакого предустановленного интерфейса, ничего.
Каждый раз, когда вы на что-то нажимаете, следующий экран полностью генерируется моделью в режиме онлайн. Да, если вы заходите в приложение – оно тоже генерируется с нуля в моменте. Вместо оперативки – контекстное окно: файлы не хранятся, а тоже генерируются каждый раз заново на основе ваших предыдущих действий.
У Google это называется Gemini Computer. Надо сказать, что это не отдельный релиз, а просто демка способностей новой Gemini 2.5 Flash Light, которую вчера выложили на YouTube официального аккаунта.
Мол: посмотрите, новая модель настолько резвая, что с ней можно даже вот такое провернуть (460 токенов в секунду – действительно хороший результат).
В общем, выглядит очень занятно. Google, кажется, первые, кто додумался что-то такое сделать: youtu.be/q6qD_i1Et2w