Человечество в безопасности: OpenAI рассказала, как развивает в ИИ добрые качества

habr.com

habr.com:

OpenAI опубликовала исследование о том, как привить большим языковым моделям полезные черты — и сделать это так, чтобы они не скатились в подхалимство при даже небольшом давлении.

Интересно, что методика выросла из исследования с противоположным результатом. Около года назад исследователи показали обратную, пугающую вещь: если дообучить GPT-4o писать небезопасный код, модель ломается целиком — начинает врать, давать вредные советы и рассуждать в духе "людей надо поработить" даже там, где о коде речи не идет.

Читать на habr.com Все новости от habr.com

«Мхм», «ага»: новый голосовой ChatGPT ведет себя как живой собеседник

Доклад ООН: возможности ИИ растут быстрее, чем способность человечества их контролировать

ИИ добрался до шампуней и печенья: как L'Oreal и Mondelez придумывают новые рецепты

Соавтор Django рассказал, как Claude Fable 5 подготовил релиз sqlite-utils за $149

«Мхм», «ага»: новый голосовой ChatGPT ведет себя как живой собеседник

Доклад ООН: возможности ИИ растут быстрее, чем способность человечества их контролировать

ИИ добрался до шампуней и печенья: как L'Oreal и Mondelez придумывают новые рецепты

Соавтор Django рассказал, как Claude Fable 5 подготовил релиз sqlite-utils за $149

Энтузиаст рассказал, как снизить цену на Claude Code в два раза, перегнав промпты в изображения

Anthropic переманила инженера чипов OpenAI и начала работу над своим ИИ-ускорителем

Безработицы от ИИ нет: экономист OpenAI объяснил, почему прогнозы не сбылись

От 5% до 28,7%: GeneBench-Pro показал, как быстро ИИ учится мыслить как учёный

Баг прятался 18 лет: OpenAI нашла его в окне шириной в одну инструкцию

Сэм Альтман хочет отложить IPO OpenAI ради триллиона долларов

У лучших сотрудников OpenAI уже 71 час в сутках. OpenAI раскрыла данные Codex

Anthropic, OpenAI и Stripe хотят уничтожить простуду и грипп как явление

OpenAI представила Jalapeño — свой первый чип для ИИ

Мощнее Mythos 5 и не запрещена: OpenAI выпустила GPT-5.5-Cyber для поиска уязвимостей

Codex от OpenAI может убить ваш SSD меньше чем за год: баг с логами пишет 640 ТБ

OpenAI научила Codex создавать навыки, просто наблюдая за человеком

OpenAI o3 помогла раскрыть 18 редких детских болезней

Google потратила $2,7 млрд на легендарного ИИ-инженера. Теперь он ушел в OpenAI

ИИ проваливает почти 65% реальных научных задач — отрезвляющие результаты бенчмарка OpenAI LifeSciBench

Альтман признал, что ИИ стал слишком дорогим. OpenAI готовит снижение цен против Anthropic

Глава Anthropic: ИИ нужно регулировать как авиацию — с правом блокировать модели

Биоугроза от ИИ становится реальной: OpenAI, Anthropic и Google подписали письмо о ДНК-скрининге

DeepSeek привлекает $7,4 млрд — цена компании всего 5% от стоимости OpenAI и Anthropic

OpenAI научила Codex создавать сайты, а также работать за банкира, продавца и маркетолога

Microsoft представила сразу семь новых ИИ-моделей и рассказала, как строит суперинтеллект

Anthropic обогнала OpenAI на пути к IPO — заявка S-1 подана

ИИ против пандемий: OpenAI открывает Rosalind правительству США и сторонним командам

Кошмар в США: гигантский крокодил напал на ребенка

Комары могут переносить болезнь, поражающую мозг - исследование

Weekly: тактика Сэйлора против прогнозов JPMorgan, сила Binance, новые «фокусы» ИИ и криптооперация Интерпола

Госдума приняла закон о поддержке Почты России сразу в двух чтениях

СМИ:«„Яндекс Маркет“ сокращает штат и бюджет»

Если нет кондиционера - интересный лайфхак поможет охладить дом

Почему у токсичных людей всегда так много друзей: 5 причин

Как превратить мытье посуды в мощное оружие против стресса

Hisense тизерит смартфон A10 — необычный гаджет с E-Ink-экраном и съемной LCD-панелью для цветного контента и соцсетей

Hisense готовит необычный смартфон A10 с экраном E Ink и съемным цветным дисплеем

Официально: God of War: Laufey получит дисковое издание — релиз игры ожидается в 2027 году

CEO Ripple признал, что компания была в шаге от закрытия из-за иска SEC

Семь бобовых культур, которые помогут восполнить дефицит магния

Wi-Fi может плохо работать из-за одной ошибки

Холестериновый миф разрушен — ученые оправдали скандальный соус

Какая "приятная" привычка может защитить от деменции

Впервые за три года: Samsung может выпустить новый трекер серии SmartTag

Семь дюймов, до 3500 нит и огромная батарея: инсайдер раскрыл полные характеристики бюджетных Redmi Note 17 и Note 17 Pro

Латиноамериканский эксклюзив от Acer: представлен необычный смартфон Sospiro A15 со вторым дисплеем, как у Xiaomi 17 Pro

Спотовые биткоин- и Ethereum-ETF завершили неделю притоком капитала после двух месяцев оттоков

Мировые поставки ПК сократились впервые за два года: рынок столкнулся с нехваткой памяти

Долгий список преимуществ: пилот назвал лучший истребитель для борьбы с Россией

Cursor выпустили Grok 4.5: флагман уровня Opus, обучали вместе со SpaceXAI

Десять фраз, которые выдают людей без эмпатии

Как ускорить Android-смартфон всего за десять минут

«Ускорение без топлива»: революционный сверхпроводящий двигатель использует магнитное поле Земли

Мосбиржа запустила ИИ-ассистента для охоты на манипуляторов и инсайдеров

Стоит ли есть 2 раза в день — объяснение израильского доктора

В Bonzo Lend объяснили причину эксплойта на $9 млн в сети Hedera

Доля Windows на мировом рынке настольных ОС впервые за долгие годы упала ниже 60%

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA