Claude Opus 4.5 побил рекорд автономности: справляется с 5-часовыми задачами, но есть нюансы
Организация METR, занимающаяся оценкой способностей ИИ-моделей, опубликовала результаты тестирования Claude Opus 4.5. Модель от Anthropic показала 50%-горизонт около 4 часов 49 минут — это рекорд среди всех протестированных систем.
Показатель означает, что Opus 4.5 справляется с задачами такой длительности (измеренной в человеко-часах работы) с вероятностью 50%.
habr.com