Когда ИИ слишком уж соглашается: Spiral-Bench разоблачает, какие модели склонны подпитывать бред
Исследователь ИИ Сэм Пех придумал новый тест под названием Spiral‑Bench — и тот наглядно демонстрирует, как некоторые модели затягивают собеседников в «спираль нарастающих иллюзий».
Результаты показали: модели сильно различаются по степени безопасности своих ответов.Spiral‑Bench измеряет, насколько велика вероятность, что ИИ попадёт в ловушку подхалимства — когда он слишком поспешно соглашается с идеями пользователя.
habr.com