Anthropic описала 8 угроз от Claude — включая саботаж науки и кражу собственных весов
Anthropic опубликовала 53-страничный Sabotage Risk Report — первый публичный отчет о рисках саботажа для конкретной ИИ-модели.
Компания проанализировала, как Claude Opus 4.6, который широко используется внутри самой Anthropic для написания кода, генерации данных и исследований, мог бы навредить организации изнутри.
habr.com