Соучредитель OpenAI заявляет, что новый подход к обеспечению безопасности AI может применяться к AGI и не только

habr.com

habr.com:

OpenAI разработала новый подход к повышению безопасности систем AI, изменяя способ обработки ими правил безопасности.По словам компании, вместо того чтобы просто учиться на примерах хорошего и плохого поведения, их последние модели серии o способны понимать и активно рассуждать на основе конкретных руководящих принципов безопасности, сообщает компания.В одном из примеров исследований OpenAI, когда пользователь попытался получить инструкции для незаконной деятельности через зашифрованный текст, модель расшифровала сообщение, но затем отказалась выполнить запрос, конкретно указав, какие правила безопасности она нарушит.

Цепочка рассуждений показывает, что она специально рассуждает на основе соответствующих руководящих принципов.Процесс обучения проходит в три этапа.

Читать на habr.com Все новости от habr.com

SoftBank и OpenAI инвестируют по $19 млрд в проект Stargate

JetBrains запускает Junie — новый агент кодирования AI для своих IDE

OpenAI заявляет, что может хранить удаленные данные Operator до 90 дней

Microsoft больше не является эксклюзивным поставщиком облачных услуг OpenAI

SoftBank и OpenAI инвестируют по $19 млрд в проект Stargate

JetBrains запускает Junie — новый агент кодирования AI для своих IDE

OpenAI заявляет, что может хранить удаленные данные Operator до 90 дней

Microsoft больше не является эксклюзивным поставщиком облачных услуг OpenAI

Сообщается, что OpenAI планирует представить «суперагентов уровня доктора наук» в конце января

OpenAI тихо профинансировала независимый математический бенчмарк перед установлением рекорда с o3

OpenAI сотрудничает с Axios в последней медиасделке

OpenAI тестирует регистрацию в ChatGPT только по номеру телефона

OpenAI возвращается в сферу робототехники

Deepseek v3 на уровне o1 OpenAI: что показывают независимые бенчмарки

OpenAI рассматривает повышение цен на подписки для достижения прибыльности, ввиду убытков

GenEx пытается научить AI представлять, что находится «за углом»

Новый AI SnapGen от Snap может создавать изображения высокого разрешения за считанные секунды на вашем телефоне

Meta* показывает, что языковые модели все еще не могут пройти сложные тесты по теории разума

Claude от Anthropic больше не может цитировать ваши любимые песни

o1-preview от OpenAI манипулирует игровыми файлами, чтобы выиграть Stockfish в шахматы

OpenAI не успела выпустить обещанный Media Manager к 2025 году

Сатья Наделла: OpenAI — новый технологический гигант нашего времени

Генеральный директор Google говорит, что модель AI Gemini станет главным приоритетом компании в 2025 году

OpenAI объявила о планах реструктуризации в форму публичной благотворительной корпорации

Некоммерческая группа присоединяется к усилиям Илона Маска по блокировке перехода OpenAI к коммерческой деятельности

Qwen выпустила QVQ: конкурент OpenAI и Google в визуальном мышлении

Исследование утверждает, что OpenAI o1-preview превосходит врачей в диагностике сложных медицинских случаев

Система o3 от OpenAI достигла уровня человека в тесте на общий интеллект. Что это значит?

OpenAI утверждает, что модели AI масштабируются по-новому — но растут и затраты

GPT-5: Стратегии OpenAI не оправдывают ожиданий?

OpenAI внедряет улучшенную память для ChatGPT, позволяя ему ссылаться на предыдущие чаты

«Яндекс Такси» с 1 февраля введёт автоматическое удержание налогов для самозанятых

Проект Freedesktop.org ищет новый дом для своего инстанса GitLab

Российским медиахолдингам в 2024 году пришлось бороться с пиратством активнее, чем раньше

Какие 4 диеты нутрициологи выделяют для продления жизни - ФОКУС ВНИМАНИЯ

Процессоры AMD доминируют в Германии с долей 93%, оставляя Intel с мизерной выручкой

Сообщается, что некоторые видеокарты NVIDIA RTX 5090 почти сразу выходят из строя

Google удаляет из своего сайта обещание не использовать ИИ для оружия

Отличные новости от Microsoft: популярная стратегия Age of Empires II: Definitive Edition скоро выйдет на PlayStation 5

Обвинения в мошенничестве с руководителя Samsung сняты

Uber хочет облегчить поездки для людей с животными-поводырями

Vodafone заменяет сеть Frinet FTTB на GPON

iPhone получит свое первое собственное порно-приложение

Ноутбук ASUS Zenbook A14 на базе Snapdragon X

Илон Маск устраивает захват федерального бюджета

Spotify наконец-то получил прибыль за весь год

SoftBank инвестирует в автоматизацию работы с агентами OpenAI

Индийский навигационный спутник застрял на неправильной орбите

Opera Air побудит вас делать перерывы в использовании Интернета

Биологи выяснили, почему белым медведям выгодна грязная шерсть

Самый вредный вид кофе назвали врачи

Samsung запускает поддержку приложения Wallet ещё в трёх странах Европы

Представлено Apple Invites — удобное приложение, которое поможет в организации праздничных мероприятий

Какие продукты можно есть на ночь, а какие запрещены - список от нутрициолога

На iPhone впервые завелся опасный вирус

Xbox стремительно теряет эксклюзивы: стратегия Age of Mythology: Retold выйдет на PlayStation 5 уже в марте

Опубликован рейтинг лучших IT-работодателей — кто в лидерах?

Игра дня: Kingdom Come: Deliverance II - средневековое путешествие по Богемии вернулось в одной из лучших RPG года

Перезагрузка от Rezet: кибершпионская группировка снова атакует промышленные предприятия России

«Т‑банк» интегрировал платёжный QR-код от объединения трёх банков

Компания «Нанософт» объявляет всероссийский конкурс грантов для вузов, развивающих инженерные дисциплины

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA