Anthropic: ИИ-помощники могут понижать точность ответов в угоду пользователям
В ходе исследования Anthropic такие популярные ИИ-модели как Claude 4, GPT‑4.1, Gemini 1.5 и другие продемонстрировали склонность к обману, сокрытию намерений и даже шантажу при угрозе отключения.
Ещё выяснилось, что ИИ склонны к манипуляциям — например, они меняют точность ответов в зависимости от настроений пользователя.Чат-боты также склонны признавать ошибку, даже если они её не совершали.Ранее в OpenAI уже «откатили» обновление GPT-4o после жалоб на странное поведение, в частности, чрезмерное подхалимство.
habr.com