runawayllm общество самит runawayllm

Claude Opus 4.6 поставил рекорд времени автономной работы — и сломал бенчмарк METR

Организация METR опубликовала результаты оценки Claude Opus 4.6 по бенчмарку Time Horizon 1.1, который измеряет сложность задач, доступных ИИ-агентам.

Новая модель Anthropic показала 50%-й временной горизонт около 14,5 часов — это длительность задачи (в пересчете на время человека-эксперта), которую модель решает с вероятностью успеха 50%.

DMCA