Claude Opus 4.6 поставил рекорд времени автономной работы — и сломал бенчмарк METR
Организация METR опубликовала результаты оценки Claude Opus 4.6 по бенчмарку Time Horizon 1.1, который измеряет сложность задач, доступных ИИ-агентам.
Новая модель Anthropic показала 50%-й временной горизонт около 14,5 часов — это длительность задачи (в пересчете на время человека-эксперта), которую модель решает с вероятностью успеха 50%.
За использование Claude в OpenClaw забанят? Anthropic обновила правила использования и всех запутала
habr.com