runawayllm общество самит runawayllm

Claude Opus 4.5 побил рекорд автономности: справляется с 5-часовыми задачами, но есть нюансы

Организация METR, занимающаяся оценкой способностей ИИ-моделей, опубликовала результаты тестирования Claude Opus 4.5. Модель от Anthropic показала 50%-горизонт около 4 часов 49 минут — это рекорд среди всех протестированных систем.

Показатель означает, что Opus 4.5 справляется с задачами такой длительности (измеренной в человеко-часах работы) с вероятностью 50%.

DMCA