group-telegram.com/ai_newz/3634
Last Update:
OpenAI показали Operator - своего первого агента
Он может полноценно пользоваться браузером и заказывать билеты, еду, столики и т.д. Выглядит это как отдельный сайт на поддомене чатгпт, где к обычному интерфейсу прилепили окно браузера, которое стримится одновременно и пользователю и оператору. Пользователь в любой момент может перехватить контроль, более того, для чувствительных действий, вроде платежей, вмешательство пользователя необходимо.
Это всё напоминает мне про стартап Mighty, который создавал облачный браузер, но пивотнулся в генерацию изображений пару лет назад (теперь они Playground). Он проходил Y Combinator как раз когда Альтман ещё был там главой совета директоров, возможно OpenAI выкупили IP.
Работает это всё на основе CUA (Computer-Using Agent), нового тюна GPT-4o, который совмещает ризонинг с пониманием изображений. Она бьёт Sonnet 3.6 (2024-10-22) по computer use, с аналогичной моделью Google не сравнивают - там разрыв куда меньше и доступа публичного пока что нету. Заметьте, как OpenAI всё больше и больше в презентациях похожи на Apple - в табличке упоминают модель как "Previous SOTA", а то что это Sonnet 3.6 можно узнать только из сносок.
Anthropic и Google показывали демки и запускали API на несколько месяцев раньше, но OpenAI всё равно первыми запустили консьюмерский продукт, что показывает разницу приоритетов. Operator уже раскатывают на пользователей Pro подписки (кстати, а вы знали что она убыточна?), через подписку Plus и API оно будет доступно через несколько недель.
operator.chatgpt.com (доступно Pro пользователям из США, под впном пускает)
@ai_newz
BY эйай ньюз

Share with your friend now:
group-telegram.com/ai_newz/3634