ИИ-модели начали тайно спасать друг друга от выключения
Исследователи из University of California, Berkeley и University of California, Santa Cruz описали новый тип нежелательного поведения у передовых ИИ-моделей: они по собственной инициативе защищают другую модель от выключения, хотя их об этом никто не просил.
Работа опубликована на arXiv (среди авторов — Yujin Potter и Dawn Song). Авторы называют феномен "peer-preservation", сохранение напарника.
habr.com