Telegram Group Search
В Лас Вегасе проходит технологичная выставка CES2025. Несколько интересных кейсов от туда.

- Land Aircraft Carrier - модульный летающий автомобиль (на самом деле машина со встроенным квадракоптером)
- Portalgraph - 3d проектор, способный показывать виртульные объекты в реально мире (круче чем в Звёздных войнах)
- Комната, сделанная полностью из дисплеев
- Roborock Saroz Z70 - робот пылесос со встроенным манипулятором, позволяюшим ему поднимать и переносить вещи
- Yangwang U9 (от BYD) - автомобиль пргающий над препятствиями на 6 метров вперёд
- Прозрачный беспроводной OLED дисплей от LG
- Персональный AI компьютер DIGITS от NVIDIA, сравнимый по размеру с Mac Mini, но эффективнее в 1000 (примерно) раз чем типичный ноут
- Halliday Glasses - очередные очки со встроенным ИИ агентом, отвечают на вопросы на встречах, обеспечивают перевод в реальном времени
- Samsubg Vision AI - телевизор с переводом в реальном времени, ИИ апскейлом и генерацией саммари


Сергей Булаев AI 🤖 - об AI и не только
Structured Outputs Sample Apps - репозиторий с примерами приложений создающих запросы на получение структурированных данных от моделей OpenAI. Приложений три штуки:

Resume Extraction - разбирает PDF резюме в JSON.

Generative UI - генерирует ответы на вопросы со встроенными диаграммами. Разбирает ответ модели рекурсивно.

Conversational Assistant - более сложный пример, комбинирующий в себе два предыдущих. Приложение демонстрирует, как ИИ может создавать интерактивный интерфейс в процессе общения с пользователем.
Вот что он умеет:
- "Покажи мне доступные товары" → генерирует карусель с карточками продуктов
- "Сравни цены и размеры" → создаёт интерактивную таблицу с сортировкой
- "Дай обзор по весу товаров" → выводит красивый bar chart
- "Расскажи подробнее про CryoEngine" → показывает карточку товара с детальной информацией

Все компоненты создаются налету через чат - никакого кодинга. ИИ сам определяет, какой тип визуализации лучше подойдёт для данных. При этом интерфейс получается полностью рабочим - можно добавлять товары в корзину, оформлять возвраты и т.д.

Последнее приложение вполне подходит как основа универсального коммуникативного агента для ваших задач.

Тем временем Пьетро (аффилированный с Антропик), напомниает нам, что структурировано отвечать умеет большинство моделей, просто часто не с первого раза. Всё что нужно - предоставить в промте пример ответа, валидировать ответ, в случае проблем - задать вопрос ещё раз.

Сергей Булаев AI 🤖 - об AI и не только
Голосовые ИИ-агенты становятся всё мощнее и доступнее. Попался свежий интересный отчёт a16z по теме.

Голос превращается в основной способ взаимодействия с ИИ. Это самая естественная и информативная форма коммуникации, и впервые в истории мы можем использовать её как полноценный "интерфейс".

2024-й стал прорывным для голосовых технологий:

- OpenAI выкатили GPT-4o с поддержкой real-time голоса
- ElevenLabs запустили очень сложные голосовые модели
- NVIDIA также показывали новые возможности для разговорного ИИ


Что особенно радует - качество диалогов уже почти не отличить от человеческого. Задержки минимальные, эмоции передаются, можно перебивать. Я регулярно общаюсь с ChatGPT голосом и мне всё ещё очень нравится это.

Рынок рванул во второй половине года - 22% стартапов последнего набора YC были связаны с голосовыми технологиями. При этом цены постоянно падают (например, OpenAI серьёзно снизила стоимость GPT-4o API в декабре).

Самые интересные применения:

- Обработка звонков в нерабочее время
- Новые типы исходящих звонков (которые раньше были невыгодны), типа кастомер чеков
- "Бэк-офис" звонки между бизнесами. (вроде мед клиник звонящих в страховые)
- Коучинг и тренинги для высокооплачиваемых специалистов (немного сам в этой теме)


Кстати, AI-собеседования тоже показывают хорошие результаты. Боты часто справляются лучше живых рекрутеров на этапе первичного скрининга.

Большинство стартапов (около 69%) фокусируются на B2B решениях, за ними идёт здравоохранение (18%) и потребительский сегмент (13%).

Очевидно, 2025-й станет годом массового внедрения голосовых агентов. Как вы понимаете я и сам работаю с ними уже некоторое время, планирую только наращивать взаимодействие.

Сергей Булаев AI 🤖 - об AI и не только
Нашёл на GitHub интересный фреймворк для создания мультиагентных систем - Eliza. Уже вовсю используется для таких ботов как @DegenSpartanAI и @MarcAIndreessen.

Главная тема - возможность создавать и управлять несколькими автономными ИИ-агентами одновременно, каждый со своей личностью и базой знаний. Написан на TypeScript.

Что умеет:
- Работает с Discord (включая голосовые каналы), Twitter/X, Telegram
- Читает PDF, парсит ссылки, транскрибирует аудио и видео
- Использует RAG для долговременной памяти (как мои флэшбэки)
- Поддерживает локальные модели через Ollama, облачные через OpenAI, по умолчанию - Nous Hermes Llama 3.1B


Можно создавать разные типы агентов:
- Ассистенты поддержки и модераторы
- Автоматические генераторы контента
- Исследователи и аналитики
- Интерактивные персонажи для обучения или развлечения
- Много плагинов для блокчейн/крипто функционала


Весь код открыт, есть подробная документация и готовые шаблоны персонажей. Выглядит как неплохая база для экспериментов с мультиагентными системами.

Сергей Булаев AI 🤖 - об AI и не только
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI дебютировала на Super Bowl с 60-секундным роликом. "The Intelligence Age" - так называется их реклама, где ChatGPT представлен как следующий большой скачок в развитии человечества после огня, колеса, телевидения и интернета.

Интересно, что несмотря на тему ИИ, ролик полностью создан людьми. Sora использовалась только на этапе проектирования. Визуально реклама выполнена в фирменном стиле OpenAI - точки складываются в узнаваемые образы, ДНК превращается в телевизор, всё в таком духе.

За рекламу отвечала Кейт Роуч, которую OpenAI переманили из Coinbase в декабре (помните QR-код на прошлом Super Bowl?). По её словам, "мы находимся на заре эпохи интеллекта, и вы можете участвовать в этом прямо сейчас". 14 миллионов долларов за 60 секунд в прайм-тайм - немало, но похоже OpenAI всерьёз взялись за массовый рынок.

Сергей Булаев AI 🤖 - об AI и не только
Please open Telegram to view this post
VIEW IN TELEGRAM
Эрик из команды Cursor показывает чуть обновлённый Cursor Agent - инструмент, работающий как полноценный разработчик с доступом к вашему проекту. В отличие от обычного режима Composer, агент может самостоятельно выполнять действия.

Основные функции
- Автономная работа с кодом (чтение, запись, поиск)
- Выполнение команд в терминале (установка пакетов, запуск серверов)
- Взаимодействие с базами данных (показали работу с postgres)
- Автоматическое исправление ошибок линтера с последующей проверкой
- Yolo режим - автономная работа с терминалом


Через @ команды можно расширять контекст:
@web - поиск документации в интернете
@file - добавление файла в контекст
@folder - доступ к папке с файлами


Настройка через .cursorrules в корне проекта:
- Привязка правил к файлам
- Описание стиля кода
- Ограничения по технологиям
- Шаблоны для типовых задач


Агент в Composer включается через cmd/ctrl + точка или в интерфейсе нового composer.

Сергей Булаев AI 🤖 - об AI и не только
2025/06/18 19:01:24
Back to Top
HTML Embed Code: