BrowseComp: новый тест для ИИ-агентов по поиску информации в интернете от OpenAI
BrowseComp - это новый бенчмарк от OpenAI, созданный для оценки способности ИИ-агентов эффективно искать информацию в интернете.
Бенчмарк включает в себя 1266 вопросов, которые требуют от модели творческого подхода в поиске информации на разных сайтах. Эти вопросы не просто требуют фактов, их нужно искать, объединяя информацию с разных источников, делая задачу по-настоящему сложной.Интернет значительно изменил наш доступ к информации, но поиск информации до сих пор остается проблемным для людей.
habr.com