OpenAI обнаружила скрытые функции в моделях ИИ, которые приводят к несогласованным ответам

habr.com:

Исследователи из OpenAI заявили, что обнаружили скрытые функции в моделях ИИ, которые соответствуют несогласованным «персонажам», согласно новому исследованию, опубликованному компанией в среду.Изучив внутренние представления модели ИИ — числа, которые определяют реакцию модели ИИ и которые часто кажутся людям совершенно бессвязными, — исследователи OpenAI смогли выявить закономерности, которые проявлялись, когда модель вела себя неправильно.Исследователи обнаружили одну такую особенность, которая соответствовала токсичному поведению в ответах модели ИИ.

Это означает, что модель ИИ давала несогласованные ответы, например, лгала пользователям или делала безответственные предложения.Исследователи обнаружили, что они могут повышать или понижать токсичность, регулируя этот параметр.Последние исследования OpenAI позволяют компании лучше понять факторы, которые могут привести к небезопасному поведению моделей ИИ, и, таким образом, могут помочь в разработке более безопасных моделей ИИ.

Читать на habr.com Все новости от habr.com

OpenAI усиливает меры безопасности, чтобы не дать конкурентам скопировать свои передовые модели ИИ

Заявления Apple о больших моделях обработки данных стали предметом нового исследования

Meta* тестирует чат-ботов с проактивными функциями для повышения вовлечённости

Токенизированные акции OpenAI: что стоит за продажей через Robinhood?

OpenAI усиливает меры безопасности, чтобы не дать конкурентам скопировать свои передовые модели ИИ

Заявления Apple о больших моделях обработки данных стали предметом нового исследования

Meta* тестирует чат-ботов с проактивными функциями для повышения вовлечённости

Токенизированные акции OpenAI: что стоит за продажей через Robinhood?

OpenAI нанимает команду стартапа Crossing Minds, занимающегося рекомендациями на основе ИИ

Google улучшает функцию Ask Photos: поиск по фотографиям станет быстрее

Meta* нанимает ключевого исследователя OpenAI для работы над моделями рассуждений ИИ