group-telegram.com/anti_agi/154
Last Update:
Результат пока даётся только в текстовом виде, в ближайшие недели к отчётам добавят встроенные изображения, визуализацию данных и «другие аналитические результаты» для большей ясности и контекста.
Опция уже доступна подписчикам Pro в веб-версии, они получат 100 запросов в месяц. Позже deep research «раскатят» на мобильные и настольные приложения, а также для пользователей Plus и Team.
Новый инструмент в OpenAI протестировали на Humanity's Last Exam — тесте из более чем 3 тысяч вопросов по более чем 100 предметам — от лингвистики до ракетостроения, от классики до экологии. Там где GPT-4o, Grok-2 и другие набрали в среднем от 3 до 6%, deep research пробил отметку в 26,6%. У DeepSeek-R1 результат составил 9,4%, у o3-mini в режиме high — 13%.
В компании предупреждают, что deep research пока находится на ранней стадии разработки. «Ему может быть сложно отличать достоверную информацию от слухов, и в настоящее время он демонстрирует слабую калибровку уверенности, часто неточно передавая неопределённость». Ну и, конечно, остаётся риск галлюцинаций.