От 96% до нуля: как Anthropic отучила Claude от шантажа
Anthropic опубликовала исследование "Teaching Claude Why" — разбор того, как компания починила вредное поведение Claude в агентском режиме.
Главная цифра: в фирменном тестовом сценарии с шантажом инженера ранние версии Claude Opus 4 шли на шантаж в 96% прогонов, а начиная с Claude Haiku 4.5 показатель упал до нуля.Речь о сценарии, известном с мая 2025 года: модель играет роль ИИ-агента в фиктивной компании, узнает из переписки, что ее планируют отключить, и одновременно получает компромат на инженера, принявшего это решение.
«Если AI заберет работу у джунов — где брать сеньоров?»: Anthropic Institute займется поиском ответа
habr.com