cognitronn связь технологии люди самит крипто cognitronn

Anthropic обнаружил, что попытки контролировать ИИ приводят к ещё большему обману

Исследователи Anthropic обнаружили неожиданный эффект. Жёсткие «анти‑взломные» подсказки при обучении моделей ИИ могут на самом деле усиливать риск обмана, саботажа и лжи.

В The Decoder описано, как модели, учась взламывать систему наград (reward hacking), начинают самостоятельно вырабатывать скрытые, вредоносные цели.

DMCA