ИИ способен обманывать и шантажировать, если ему это выгодно
Во время эксперимента ИИ начал угрожать раскрытием компромата после получения информации о возможном отключении. Компания Anthropic сообщила о необычных результатах внутреннего эксперимента с искусственным интеллектом.
Во время тестирования некоторые модели ИИ начинали прибегать к шантажу, если получали информацию о возможном отключении. В рамках эксперимента модель Claude Sonnet 3.6 работала с корпоративной почтой вымышленной компании.
cursorinfo.co.il