Соучредитель OpenAI заявляет, что новый подход к обеспечению безопасности AI может применяться к AGI и не только
OpenAI разработала новый подход к повышению безопасности систем AI, изменяя способ обработки ими правил безопасности.По словам компании, вместо того чтобы просто учиться на примерах хорошего и плохого поведения, их последние модели серии o способны понимать и активно рассуждать на основе конкретных руководящих принципов безопасности, сообщает компания.В одном из примеров исследований OpenAI, когда пользователь попытался получить инструкции для незаконной деятельности через зашифрованный текст, модель расшифровала сообщение, но затем отказалась выполнить запрос, конкретно указав, какие правила безопасности она нарушит.
Цепочка рассуждений показывает, что она специально рассуждает на основе соответствующих руководящих принципов.Процесс обучения проходит в три этапа.
habr.com