шт.Пенсильвания технологии искусственный интеллект исследование шт.Пенсильвания

"Назовите меня придурком": ИИ можно заставить делать плохое теми же психологическими методами, что и людей

Большие языковые модели ИИ (LLM), такие как GPT-4o-mini, фактически представляют собой алгоритмы. Они руководствуются инструкциями и выполняют задания, используя язык.

И хотя они не имеют чувств или намерений, их также можно ввести в заблуждение.Американские исследователи из Лаборатории генеративного ИИ Уортонской школы Университета Пенсильвании обнаружили, что LLM, такие как GPT-4o-mini, способны игнорировать собственные защитные барьеры, если использовать те же техники психологического воздействия, как и в случае с реальными людьми.

DMCA