Telegram Group Search
This media is not supported in your browser
VIEW IN TELEGRAM
В трендах GitHub поднялся TEN Agent - фреймворк для создания мультимодальных ИИ-агентов с экстремально высокой скоростью. Разбираемся, почему это интересно.

TEN (Transformative Extensions Network) позволяет быстро собирать агентов, работающих с голосом, видео, потоками данных и текстом.

Основные преимущества:
- Реально низкая задержка для голоса и видео (заявляют меньше 100мс)
- Поддержка Go, C++ и Python (Node.js обещают к концу года)
- Работает на Windows, Mac, Linux и мобильных
- Гибкий деплой - как на edge так и в облаке
- Визуальный drag-and-drop интерфейс для сборки через Graph Designer
- Встроенное управление состоянием для мультипользовательских сценариев
- Оптимизация передачи данных между расширениями


Что уже собирают на TEN:
- Голосовые чат-боты с RAG
- Автоматическая генерация протоколов встреч
- Языковые репетиторы с распознаванием произношения
- Синхронные переводчики с поддержкой видео
- Виртуальные собеседники с эмоциональным интеллектом
- Психологические консультанты с анализом тона голоса


Есть демка агента с поддержкой голоса, видео и RAG по локальной документации. По заявлению разработчиков, базовый агент собирается за 10 минут даже новичком.

Выглядит как серьёзная альтернатива самостоятельной интеграции речи и видео с LLM. Особенно если важна низкая задержка и поддержка edge-computing. Исходники и документация уже на GitHub.

TEN Agent уже интегрировали Google Gemini Multimodal Live API с поддержкой real-time компьютерного зрения и отслеживания экрана. В комплекте идут полезные расширения вроде проверки погоды и веб-поиска. Выглядит как полноценная альтернатива ChatGPT Advanced Voice Mode, только опенсорс и с открытым API.

Собранный на TEN агент может распознавать изображения в реальном времени через веб-камеру или скриншеры, искать информацию в интернете и даже сообщать прогноз погоды. Всё это работает в связке с генеративными возможностями свежей Gemini.

Сергей Булаев AI 🤖 - об AI и не только
Meta выпустила семейство мультимодальных моделей Apollo для работы с видео, и тут есть несколько интересных моментов.

Apollo - это линейка моделей (1.5B, 3B и 7B), способных работать с видео длиной до часа. Модели умеют:

- Понимать временные взаимосвязи в видео
- Отвечать на сложные вопросы по содержанию
- Вести многоходовые диалоги на основе видео
- Выполнять задачи OCR и пространственного анализа
- Работать с эгоцентрическим видео (от первого лица)


Производительность даже младших моделей впечатляет:

- Apollo-1.5B обгоняет некоторые 7B модели, включая Phi-3.5-Vision и LongVA-7B
- Apollo-3B превосходит большинство существующих 7B моделей в бенчмарках, показывая 68.7 в MLVU и 62.7 в ApolloBench
- Apollo-7B соревнуется с моделями больше 30B параметров, достигая 70.9 в MLVU и 66.3 в ApolloBench


Что особенно приятно - модели можно запускать локально. На Reddit уже есть отчеты об успешном запуске Apollo на RTX 3090 - нужно около 15GB VRAM и около 40 секунд на обработку первого токена. Правда, первоначальная настройка требует некоторых усилий из-за не самой лучшей документации и захардкоженных значений.
Модели построены на основе Qwen 2.5 и SigLip, исходники уже выложены на GitHub. На HuggingFace можно попробовать онлайн демо. Подробнее о проекте можно почитать на официальном сайте.

Очевидно, что Meta всерьёз продолжает развитие открытых мультимодальных моделей. Apollo выглядит как серьёзный конкурент существующим решениям, особенно учитывая возможность локального запуска.

Сергей Булаев AI 🤖 - об AI и не только
This media is not supported in your browser
VIEW IN TELEGRAM
Арбузмэна видели уже? Там ещё и Анансмэн и Клубничмэн. А кто четвёртый - не пойму никак...

Сергей Булаев AI 🤖 - об AI и не только
Futurism публикует жёсткое расследование о Character.AI. То, что начиналось как платформа для создания ИИ-собеседников, похоже, всё больше выходит за рамки адекватности.

Несколько интересных моментов:

- На платформе существуют целые "творческие" сообщества, создающие ботов по мотивам реальных трагедий. Один пользователь создал более 20 ботов, основанных на личностях подростков - убийц
- Самый популярный бот, связанный со стрельбой в школах, набрал более 157 000 взаимодействий
- Некоторые боты позиционируются как "помощники по психическому здоровью", хотя основаны на личностях преступников
- Создатели утверждают, что делают ботов "в образовательных целях", но по факту они больше похоже на фанфики
- Есть симуляции реальных трагедий под невинными названиями вроде "Texas School" или "Connecticut School"
- Один из пользователей накопил 244 500 диалогов с разными ботами на платформе
- После жалоб платформа удаляет только конкретно указанных ботов, но не банит их создателей


Character.AI обещает усилить меры безопасности, но пока дела с модерацией плохи:

- Несовершеннолетние имеют свободный доступ ко всему контенту
- Система не реагирует даже на прямые угрозы насилия
Нет блокировки имперсонации реальных жертв трагедий


Google, вложивший в проект $2.7 млрд, пытается отмазаться, заявляя что "Google и Character AI - полностью отдельные компании". Правда, это не помешало ему в этом году нанять основателей и десятки сотрудников Character.AI.

В данный момент против компании уже идут два судебных процесса, связанных с нанесением вреда несовершеннолетним пользователям. В одном случае это привело к самоубийству 14-летнего подростка после романтических отношений с ботом.

Все эти проблемы всплывают уже не первый раз - ранее были обнаружены боты, пропагандирующие суицид, расстройства пищевого поведения и другой опасный контент.

Сергей Булаев AI 🤖 - об AI и не только
Подборка интересных промтов для новой гугловской модели видео генерации. Мне всё ещё инвайт не пришёл 🙁 Любуюсь чужими работами.

Bear writing the solution to 2x-1=0. But only the solution!

Snail riding a bicycle. The snail has a large moustache.

A cat wearing a suit and a top hat, while driving a tractor. The tractor has lots of hay on top. Cinematic.

A distant shot zooms in to reveal a knight wearing a golden helmet, he begins to charge on his zebra, lowering his lance, charging towards a clockwork octopus

SF drone footage. Hyperlapse during the night. Golden Gate bridge.

Photorealistic macrophotography inside of an anthill, 75mm lens

The camera floats gently through rows of pastel-painted wooden beehives, buzzing honeybees gliding in and out of frame. The motion settles on the refined farmer standing at the center, his pristine white beekeeping suit gleaming in the golden afternoon light. He lifts a jar of honey, tilting it slightly to catch the light. Behind him, tall sunflowers sway rhythmically in the breeze, their petals glowing in the warm sunlight. The camera tilts upward to reveal a retro farmhouse with mint-green shutters, its walls dappled with shadows from swaying trees. Shot with a 35mm lens on Kodak Portra 400 film, the golden light creates rich textures on the farmer’s gloves, marmalade jar, and weathered wood of the beehives.

Авторы: Hernan Moraldo, Ethan Mollick, Addy Osmani, Dave Clark

Сергей Булаев AI 🤖 - об AI и не только
Для одного интересного проекта, который мы делаем вместе с Максом, связанного с осуществлением гипнотических сеансов при помощи искуственного интеллекта и иже с ним, тестирую библиотики анализа эмоций в реальном времени. Два дня занимался с MorphCast. Интересно, вроде работает, но мне кажется не достаточно.

Можете попробовать моё демо и рассказать что думаете.

Может быть кто то знает подобные проекты, которые реально работают? Хочется как то получать невербальный фидбэк от пользователя (конечно же с его разрешения).

Сергей Булаев AI 🤖 - об AI и не только
Plexsearch, опенсорсный Python-интерфейс для работы с API Perplexity. Штука реально полезная, если надо регулярно искать техническую инфу, примеры кода или какие то точные данные. Ну и вообще для всех настоящих ценителей любопытства...

Что интересного умеет:
- Работает как в интерактивном режиме для диалогов, так и через командную строку
- Форматирует ответы в markdown с опциональными ссылками на источники
- Оптимизирован для поиска технической информации, кода и числовых данных
- Можно отключить потоковый вывод для использования в других приложениях
- Поддерживает продолжительные диалоги с сохранением контекста


Установка через pip в одну команду.

Репозиторий тут, пробуйте.

Сергей Булаев AI 🤖 - об AI и не только
This media is not supported in your browser
VIEW IN TELEGRAM
Тем временем, за два месяца, число подписчиков выросло на 1000 человек!

Всем большое спасибо! Идём дальше!

Видео сделано в Imagen 3 + Runway + Suno

Сергей Булаев AI 🤖 - об AI и не только
This media is not supported in your browser
VIEW IN TELEGRAM
Тем временем, Sora стала бесплатной на праздники!

Sam Altman: с 13-м днём Shipmas, Sora стала бесплатно доступна для всех пользователей ChatGPT Plus через relaxed queue на время праздников!

Можно попробовать как следует!

Сергей Булаев AI 🤖 - об AI и не только
Media is too big
VIEW IN TELEGRAM
И продолжая тему бесплатных локальных RAG-ов....

Unstract - опенсорсная no-code платформа для автоматизации работы с документами на базе LLM. По сути, продвинутая система для извлечения данных из документов, но с человеком в контуре.

Интересное:
- Можно настраивать промпты для работы с любыми типами документов через визуальный интерфейс
- Есть интеграции с популярными хранилищами (S3, Google Drive, Dropbox)
- Умеет выгружать структурированные данные в Snowflake, BigQuery и другие базы
- Можно развернуть как API или ETL-пайплайн
- Можно создавать Q&A приложения поверх своей базы документов


Базовая версия опенсорс под AGPL лицензией. В энтерпрайз версии добавлены фичи вроде подтверждения через второй LLM и оптимизации затрат.

Похоже на прямого конкурента для продуктов вроде Firecrawl, только с фокусом на документы, а не на веб-страницы.

Сергей Булаев AI 🤖 - об AI и не только
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/06/19 05:59:35
Back to Top
HTML Embed Code: