OpenAI анонсировали Deep Research — самостоятельного агента для исследований
В 16:00 по Pacific Time OpenAI запустили стрим, на котором анонсировали новый продукт компании - Deep Research, особый режим для ChatGPT, в котором он переходит в режим высокой автономности, и может проводить длительные глубокие исследования - самостоятельно вырабатывать план работ, ходить по интернету в поисках информации, агрегировать и анализировать данные при помощи Python-скриптов, и всё это полностью без участия человека.Это большой шаг в автономности ИИ - даже "думающие" (reasoning) модели от OpenAI хоть и способны вести (иногда) длинную цепочку мыслей, но неспособны настолько активно пользоваться различными инструментами для сбора информации и её обработки.Начнем с бенчмарка Humanity Last Exam:Результат, безусловно, впечатляющий, но смущает "with browsing and python tools".
Ну то есть, AI смог пройти экзамен, и при этом мог... гуглить? Возникают вопросы по методологии, будем ждать более детальных разъяснений от OpenAI.Теперь перейдём к GAIA, это гораздо интереснее:GAIA интересен в первую очередь как раз тем, что это тесты заточенные под реалистичные задачи, которые выполняют люди в повседневной жизни: этот бенчмарк предполагает, что AI умеет юзать браузер, гуглить, размышлять, "видеть" изображения, и так далее.
habr.com