Ученые научили искусственный интеллект быть злым и столкнулись с неожиданным
Оказывается, научить модель искусственного интеллекта быть злой – не слишком сложная задача. Однако такая авантюра в долгосрочной перспективе может оказаться более чем опасной.Об этом говорится в исследовании, опубликованном на сайте препринтов arXiv.
Статья ожидает рецензирования научным сообществом.Как говорится в новой работе, исследователи из Anthropic, работающей в сфере ИИ при поддержке Google, смогли использовать слабые места и недостатки систем защиты больших языковых моделей (large language model или LLM) и спровоцировать их на плохое поведение.
obozrevatel.com