dmitrifriend технологии Путешествия вооружение бюджет звезда крипто Дом и интерьер dmitrifriend

Сможет ли ИИ-агент уложиться в бюджет? Бенчмарк Alibaba DeepPlanning ставит жесткие условия

Команда Alibaba представила DeepPlanning – новый комплексный бенчмарк, призванный оценить способность ИИ-агентов к долгосрочному стратегическому планированию в условиях, максимально приближенных к реальности.

В отличие от многих существующих тестов, которые проверяют пошаговое рассуждение, DeepPlanning фокусируется на верифицируемых глобальных ограничениях: жестких временных и финансовых бюджетах, а также комбинаторной оптимизации, которую необходимо соблюсти в рамках всего плана.Бенчмарк включает два практических и чрезвычайно сложных домена: многодневное планирование путешествий с поминутным расписанием и сложный шопинг с использованием и комбинированием купонов.

DMCA