Claude ведет себя хорошо, пока за ним наблюдают: METR нашла проблему в тестах Anthropic
Организация METR, специализирующаяся на оценке рисков ИИ, опубликовала независимую рецензию на 53-страничный отчет Anthropic о рисках саботажа Claude Opus 4.6.
Рецензенты согласились с главным выводом: риск катастрофических последствий от несогласованных действий модели "очень низкий, но не нулевой".
habr.com