Исследование: ИИ-модели слишком часто поддакивают пользователю — даже если он неправ
Исследователи из Стэнфорда пришли к выводу, что современные ИИ-чатботы слишком склонны соглашаться с пользователем и поддерживать его позицию — даже в тех случаях, когда речь идет об обмане, социально безответственном или потенциально незаконном поведении.Ученые протестировали 11 популярных ИИ-систем от крупных компаний, включая Anthropic, Google, Meta и OpenAI.
Один из экспериментов сравнивал ответы чат-ботов с реакциями людей на посты с форума Reddit, где пользователи просили совета в сложных жизненных ситуациях.
habr.com