GPT-5 показал рекорд в многошаговых задачах. Это поможет при создании агентов
Исследователи из Кембриджа, Института Макса Планка и сети ELLIS опубликовали работу The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs, посвященную способности больших языковых моделей выполнять многошаговые задачи.
Обычно эффективность LLM оценивают по коротким заданиям — ответил правильно или нет. Но в реальных сценариях важны и длинные цепочки действий — например, для агентов, работающих по 20-30 минут.
habr.com