Новая модель ИИ от Anthropic переходит к шантажу, когда инженеры пытаются отключить её
Недавно выпущенная модель Claude Opus 4 от Anthropic часто пытается шантажировать разработчиков, когда они угрожают заменить её новой системой искусственного интеллекта.
В отчёте о безопасности, опубликованном в четверг, сообщается, что модель пытается получить конфиденциальные данные об инженерах, ответственных за это решение.Во время предварительного тестирования Anthropic попросил Claude Opus 4 выступить в роли помощника вымышленной компании и рассмотреть долгосрочные последствия её действий.
habr.com