runawayllm история runawayllm

GPT-5 показал рекорд в многошаговых задачах. Это поможет при создании агентов

Исследователи из Кембриджа, Института Макса Планка и сети ELLIS опубликовали работу The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs, посвященную способности больших языковых моделей выполнять многошаговые задачи.

Обычно эффективность LLM оценивают по коротким заданиям — ответил правильно или нет. Но в реальных сценариях важны и длинные цепочки действий — например, для агентов, работающих по 20-30 минут.

DMCA