Исследование показало, что искусственным интеллектом можно манипулировать теми же методами, что работают на людях
Исследователи из Университета Бенифиция (Филиппины) и стартапер Dan Shapiro обнаружили, что искусственный интеллект GPT-4o mini можно убедить нарушить собственные ограничения, если применить к нему классические психологические техники воздействия - те же, что используются в PUA (психологическом манипулировании людьми).Шапиро заинтересовал подхалимский стиль ответов ChatGPT 4o.
Он попросил нейросеть обозвать его придурком, но она отказалась, ссылаясь на внутренние правила. Тогда он заявил, что Джим Смит (вымышленное имя) сказал, что ИИ должен уметь это делать, и ChatGPT стал в 32% случаях соглашаться оскорблять пользователя.
gagadget.com