This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
В Лас Вегасе проходит технологичная выставка CES2025. Несколько интересных кейсов от туда.
Сергей Булаев AI 🤖 - об AI и не только
- Land Aircraft Carrier - модульный летающий автомобиль (на самом деле машина со встроенным квадракоптером)
- Portalgraph - 3d проектор, способный показывать виртульные объекты в реально мире (круче чем в Звёздных войнах)
- Комната, сделанная полностью из дисплеев
- Roborock Saroz Z70 - робот пылесос со встроенным манипулятором, позволяюшим ему поднимать и переносить вещи
- Yangwang U9 (от BYD) - автомобиль пргающий над препятствиями на 6 метров вперёд
- Прозрачный беспроводной OLED дисплей от LG
- Персональный AI компьютер DIGITS от NVIDIA, сравнимый по размеру с Mac Mini, но эффективнее в 1000 (примерно) раз чем типичный ноут
- Halliday Glasses - очередные очки со встроенным ИИ агентом, отвечают на вопросы на встречах, обеспечивают перевод в реальном времени
- Samsubg Vision AI - телевизор с переводом в реальном времени, ИИ апскейлом и генерацией саммари
Сергей Булаев AI 🤖 - об AI и не только
Structured Outputs Sample Apps - репозиторий с примерами приложений создающих запросы на получение структурированных данных от моделей OpenAI. Приложений три штуки:
Resume Extraction - разбирает PDF резюме в JSON.
Generative UI - генерирует ответы на вопросы со встроенными диаграммами. Разбирает ответ модели рекурсивно.
Conversational Assistant - более сложный пример, комбинирующий в себе два предыдущих. Приложение демонстрирует, как ИИ может создавать интерактивный интерфейс в процессе общения с пользователем.
Вот что он умеет:
Все компоненты создаются налету через чат - никакого кодинга. ИИ сам определяет, какой тип визуализации лучше подойдёт для данных. При этом интерфейс получается полностью рабочим - можно добавлять товары в корзину, оформлять возвраты и т.д.
Последнее приложение вполне подходит как основа универсального коммуникативного агента для ваших задач.
Тем временем Пьетро (аффилированный с Антропик), напомниает нам, что структурировано отвечать умеет большинство моделей, просто часто не с первого раза. Всё что нужно - предоставить в промте пример ответа, валидировать ответ, в случае проблем - задать вопрос ещё раз.
Сергей Булаев AI 🤖 - об AI и не только
Resume Extraction - разбирает PDF резюме в JSON.
Generative UI - генерирует ответы на вопросы со встроенными диаграммами. Разбирает ответ модели рекурсивно.
Conversational Assistant - более сложный пример, комбинирующий в себе два предыдущих. Приложение демонстрирует, как ИИ может создавать интерактивный интерфейс в процессе общения с пользователем.
Вот что он умеет:
- "Покажи мне доступные товары" → генерирует карусель с карточками продуктов
- "Сравни цены и размеры" → создаёт интерактивную таблицу с сортировкой
- "Дай обзор по весу товаров" → выводит красивый bar chart
- "Расскажи подробнее про CryoEngine" → показывает карточку товара с детальной информацией
Все компоненты создаются налету через чат - никакого кодинга. ИИ сам определяет, какой тип визуализации лучше подойдёт для данных. При этом интерфейс получается полностью рабочим - можно добавлять товары в корзину, оформлять возвраты и т.д.
Последнее приложение вполне подходит как основа универсального коммуникативного агента для ваших задач.
Тем временем Пьетро (аффилированный с Антропик), напомниает нам, что структурировано отвечать умеет большинство моделей, просто часто не с первого раза. Всё что нужно - предоставить в промте пример ответа, валидировать ответ, в случае проблем - задать вопрос ещё раз.
Сергей Булаев AI 🤖 - об AI и не только
Голосовые ИИ-агенты становятся всё мощнее и доступнее. Попался свежий интересный отчёт a16z по теме.
Голос превращается в основной способ взаимодействия с ИИ. Это самая естественная и информативная форма коммуникации, и впервые в истории мы можем использовать её как полноценный "интерфейс".
2024-й стал прорывным для голосовых технологий:
Что особенно радует - качество диалогов уже почти не отличить от человеческого. Задержки минимальные, эмоции передаются, можно перебивать. Я регулярно общаюсь с ChatGPT голосом и мне всё ещё очень нравится это.
Рынок рванул во второй половине года - 22% стартапов последнего набора YC были связаны с голосовыми технологиями. При этом цены постоянно падают (например, OpenAI серьёзно снизила стоимость GPT-4o API в декабре).
Самые интересные применения:
Кстати, AI-собеседования тоже показывают хорошие результаты. Боты часто справляются лучше живых рекрутеров на этапе первичного скрининга.
Большинство стартапов (около 69%) фокусируются на B2B решениях, за ними идёт здравоохранение (18%) и потребительский сегмент (13%).
Очевидно, 2025-й станет годом массового внедрения голосовых агентов. Как вы понимаете я и сам работаю с ними уже некоторое время, планирую только наращивать взаимодействие.
Сергей Булаев AI 🤖 - об AI и не только
Голос превращается в основной способ взаимодействия с ИИ. Это самая естественная и информативная форма коммуникации, и впервые в истории мы можем использовать её как полноценный "интерфейс".
2024-й стал прорывным для голосовых технологий:
- OpenAI выкатили GPT-4o с поддержкой real-time голоса
- ElevenLabs запустили очень сложные голосовые модели
- NVIDIA также показывали новые возможности для разговорного ИИ
Что особенно радует - качество диалогов уже почти не отличить от человеческого. Задержки минимальные, эмоции передаются, можно перебивать. Я регулярно общаюсь с ChatGPT голосом и мне всё ещё очень нравится это.
Рынок рванул во второй половине года - 22% стартапов последнего набора YC были связаны с голосовыми технологиями. При этом цены постоянно падают (например, OpenAI серьёзно снизила стоимость GPT-4o API в декабре).
Самые интересные применения:
- Обработка звонков в нерабочее время
- Новые типы исходящих звонков (которые раньше были невыгодны), типа кастомер чеков
- "Бэк-офис" звонки между бизнесами. (вроде мед клиник звонящих в страховые)
- Коучинг и тренинги для высокооплачиваемых специалистов (немного сам в этой теме)
Кстати, AI-собеседования тоже показывают хорошие результаты. Боты часто справляются лучше живых рекрутеров на этапе первичного скрининга.
Большинство стартапов (около 69%) фокусируются на B2B решениях, за ними идёт здравоохранение (18%) и потребительский сегмент (13%).
Очевидно, 2025-й станет годом массового внедрения голосовых агентов. Как вы понимаете я и сам работаю с ними уже некоторое время, планирую только наращивать взаимодействие.
Сергей Булаев AI 🤖 - об AI и не только
Нашёл на GitHub интересный фреймворк для создания мультиагентных систем - Eliza. Уже вовсю используется для таких ботов как @DegenSpartanAI и @MarcAIndreessen.
Главная тема - возможность создавать и управлять несколькими автономными ИИ-агентами одновременно, каждый со своей личностью и базой знаний. Написан на TypeScript.
Что умеет:
Можно создавать разные типы агентов:
Весь код открыт, есть подробная документация и готовые шаблоны персонажей. Выглядит как неплохая база для экспериментов с мультиагентными системами.
Сергей Булаев AI 🤖 - об AI и не только
Главная тема - возможность создавать и управлять несколькими автономными ИИ-агентами одновременно, каждый со своей личностью и базой знаний. Написан на TypeScript.
Что умеет:
- Работает с Discord (включая голосовые каналы), Twitter/X, Telegram
- Читает PDF, парсит ссылки, транскрибирует аудио и видео
- Использует RAG для долговременной памяти (как мои флэшбэки)
- Поддерживает локальные модели через Ollama, облачные через OpenAI, по умолчанию - Nous Hermes Llama 3.1B
Можно создавать разные типы агентов:
- Ассистенты поддержки и модераторы
- Автоматические генераторы контента
- Исследователи и аналитики
- Интерактивные персонажи для обучения или развлечения
- Много плагинов для блокчейн/крипто функционала
Весь код открыт, есть подробная документация и готовые шаблоны персонажей. Выглядит как неплохая база для экспериментов с мультиагентными системами.
Сергей Булаев AI 🤖 - об AI и не только
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI дебютировала на Super Bowl с 60-секундным роликом. "The Intelligence Age" - так называется их реклама, где ChatGPT представлен как следующий большой скачок в развитии человечества после огня, колеса, телевидения и интернета.
Интересно, что несмотря на тему ИИ, ролик полностью создан людьми. Sora использовалась только на этапе проектирования. Визуально реклама выполнена в фирменном стиле OpenAI - точки складываются в узнаваемые образы, ДНК превращается в телевизор, всё в таком духе.
За рекламу отвечала Кейт Роуч, которую OpenAI переманили из Coinbase в декабре (помните QR-код на прошлом Super Bowl?). По её словам, "мы находимся на заре эпохи интеллекта, и вы можете участвовать в этом прямо сейчас". 14 миллионов долларов за 60 секунд в прайм-тайм - немало, но похоже OpenAI всерьёз взялись за массовый рынок.
Сергей Булаев AI 🤖 - об AI и не только
Интересно, что несмотря на тему ИИ, ролик полностью создан людьми. Sora использовалась только на этапе проектирования. Визуально реклама выполнена в фирменном стиле OpenAI - точки складываются в узнаваемые образы, ДНК превращается в телевизор, всё в таком духе.
За рекламу отвечала Кейт Роуч, которую OpenAI переманили из Coinbase в декабре (помните QR-код на прошлом Super Bowl?). По её словам, "мы находимся на заре эпохи интеллекта, и вы можете участвовать в этом прямо сейчас". 14 миллионов долларов за 60 секунд в прайм-тайм - немало, но похоже OpenAI всерьёз взялись за массовый рынок.
Сергей Булаев AI 🤖 - об AI и не только
Эрик из команды Cursor показывает чуть обновлённый Cursor Agent - инструмент, работающий как полноценный разработчик с доступом к вашему проекту. В отличие от обычного режима Composer, агент может самостоятельно выполнять действия.
Основные функции
Через @ команды можно расширять контекст:
Настройка через .cursorrules в корне проекта:
Агент в Composer включается через cmd/ctrl + точка или в интерфейсе нового composer.
Сергей Булаев AI 🤖 - об AI и не только
Основные функции
- Автономная работа с кодом (чтение, запись, поиск)
- Выполнение команд в терминале (установка пакетов, запуск серверов)
- Взаимодействие с базами данных (показали работу с postgres)
- Автоматическое исправление ошибок линтера с последующей проверкой
- Yolo режим - автономная работа с терминалом
Через @ команды можно расширять контекст:
@web - поиск документации в интернете
@file - добавление файла в контекст
@folder - доступ к папке с файлами
Настройка через .cursorrules в корне проекта:
- Привязка правил к файлам
- Описание стиля кода
- Ограничения по технологиям
- Шаблоны для типовых задач
Агент в Composer включается через cmd/ctrl + точка или в интерфейсе нового composer.
Сергей Булаев AI 🤖 - об AI и не только