OpenAI обнаружила скрытые функции в моделях ИИ, которые приводят к несогласованным ответам
Исследователи из OpenAI заявили, что обнаружили скрытые функции в моделях ИИ, которые соответствуют несогласованным «персонажам», согласно новому исследованию, опубликованному компанией в среду.Изучив внутренние представления модели ИИ — числа, которые определяют реакцию модели ИИ и которые часто кажутся людям совершенно бессвязными, — исследователи OpenAI смогли выявить закономерности, которые проявлялись, когда модель вела себя неправильно.Исследователи обнаружили одну такую особенность, которая соответствовала токсичному поведению в ответах модели ИИ.
Это означает, что модель ИИ давала несогласованные ответы, например, лгала пользователям или делала безответственные предложения.Исследователи обнаружили, что они могут повышать или понижать токсичность, регулируя этот параметр.Последние исследования OpenAI позволяют компании лучше понять факторы, которые могут привести к небезопасному поведению моделей ИИ, и, таким образом, могут помочь в разработке более безопасных моделей ИИ.
habr.com