OpenAI обучила модели «признаваться» в плохом поведении

habr.com

habr.com:

OpenAI тестирует ещё один способ раскрыть сложные процессы, происходящие в больших языковых моделях. Исследователи компании экспериментируют с манипуляциями LLM, чтобы те объясняли, как выполнили задачу, и признавались в нежелательном поведении.

Научный сотрудник OpenAI Боаз Барак рассказал, что первые результаты многообещающие. Чтобы обучить LLM признавать вину, он и его коллеги вознаграждали модель только за честность, не настаивая на принципе полезности.

Читать на habr.com Все новости от habr.com

OpenAI готовит рекламу в ChatGPT: модели будут приоритизировать спонсорский контент в ответах

AI-браузеры никогда не будут полностью безопасны — неожиданное признание OpenAI

OpenAI обновляет модель Codex и добавляет программу для кибербезопасности

Amazon инвестирует $10 млрд в OpenAI в обмен на использование Trainium

OpenAI готовит рекламу в ChatGPT: модели будут приоритизировать спонсорский контент в ответах

AI-браузеры никогда не будут полностью безопасны — неожиданное признание OpenAI

OpenAI обновляет модель Codex и добавляет программу для кибербезопасности

Amazon инвестирует $10 млрд в OpenAI в обмен на использование Trainium

OpenAI: один из барьеров для развития ИИ — низкая «скорость печати» людьми

OpenAI запустила в ChatGPT встроенный магазин приложений

Забудьте про Photoshop: OpenAI запустила ChatGPT Images — новую систему генерации и редактирования изображений

OpenAI представила GPT‑5.2 — новую версию ведущей языковой модели с улучшенной логикой и скоростью

OpenAI: каждая новая ИИ-модель может стать кибероружием

OpenAI запустила сертификационные курсы ИИ для работников

Микки Маус поддерживает генеративный ИИ: Disney инвестирует $1 млрд в OpenAI и открывает доступ к своим культовым персонажам в видеогенераторе Sora

OpenAI выпустила GPT-5.2: новую модель для профессиональных задач

OpenAI отключила похожие на рекламу рекомендации приложений в ChatGPT

OpenAI купит компанию анализа ИИ-моделей Neptune

GPT-5.2 на подходе? OpenAI начала тестировать новую модель на Design Arena

OpenAI представила технику Confessions которая учит модели честно сообщать о собственных ошибках

OpenAI тестирует новую модель внедрения корпоративного ИИ вместе с Thrive Holdings

OpenAI работает над интеграцией приложения «Здоровье» от Apple в ChatGPT

Инструмент OpenAI получит доступ к фотографиям детей в игре отслеживания Санта-Клауса

OpenAI придется раскрыть, как она обучала GPT-модели на пиратских книгах

После GPT-4o OpenAI не выпустила ни одной по-настоящему новой модели ИИ — SemiAnalysis

OpenAI: подросток обошёл функции безопасности ChatGPT перед самоубийством

OpenAI внедрит перед сезоном праздников опцию исследования покупок в ChatGPT

Microsoft представила функцию копипасты на базе локального ИИ

OpenAI запустила групповые чаты в ChatGPT: теперь нейросеть можно использовать коллективно

OpenAI разрешила сотрудникам жертвовать свои акции на благотворительность

Google обновила прогнозы погоды с помощью модели ИИ

Новые подробности о рекламе в ChatGPT: OpenAI обсуждает приоритет объявлений в ответах

В Notion готовят AI-first обновление интерфейса и собственные нейромодели

В космосе нашли невероятно горячий объект, который озадачил астрономов

Hades II и Blue Prince возглавили топ-20 лучших PC-игр 2025 года по версии Metacritic

В США рассмотрят законопроект о запрете политикам делать ставки на события

Ключевые уровни для биткоина и Ethereum и роль DXY в начале 2026 года — трейдер разобрал технические сценарии для активов

Bitget вошла в число главных драйверов рынка токенизированных акций по версии Block Scholes

«Сбер» и НИУ ВШЭ запустили всероссийский конкурс по созданию проектов с помощью нейросетей

Nvidia представила семейство ИИ-моделей Alpamayo для автономного транспорта

Пять противовоспалительных фруктов, которые стоит включить в рацион

Baseus представила ультракомпактный пауэрбанк PicoGo AC22 Ultra Mini, который легко перепутать с кейсом для TWS-наушников

Nvidia представила DLSS 4.5: больше FPS, качественнее трассировка и совместимость со всеми видеокартами RTX

Январская подборка игр уже доступна подписчикам PS Plus — предлагается последняя часть Need for Speed и платформер про Микки Мауса

Продвижение в нейросетях для экспертов от журнала “Фокус внимания” | ФОКУС ВНИМАНИЯ

Соучредитель Fundstrat ожидает новый исторический максимум биткоина к концу января 2026 года

Доступ США к венесуэльской нефти может снизить издержки биткоин-майнеров — Bitfinex

Рэпер Дрейк стал фигурантом иска против криптоказино Stake в США

В CoinList спрогнозировали волну токенсейлов и новый ATH биткоина в 2026 году

Asus представила AR-очки ROG XREAL R1, проецирующие виртуальный экран

В Max зарегистрировались 80 млн пользователей

«Яндекс 360» перезапустил «Телемост»

Что нельзя есть натощак: 8 продуктов, которые могут навредить желудку

НТЦ ИТ Роса представила новую версию ROSA Virtualization 4.0

Technored и «Группа Астра» создали прототип системы управления промышленными роботами на Astra Linux

Неизвестная частица в космосе "атаковала" новый военный спутник Испании

Руководители Apple заселяются в отелях рядом с заводами Samsung, чтобы "забронировать" оперативную память

Продукты с антираковым эффектом, которые должны быть в вашем рационе

Госорганы США заподозрили в продаже конфискованных биткоинов Samourai Wallet

В «Яндекс Пэй» признали просчёт нагрузки на приложение во время пятиминутной акции со 100% кэшбеком

В РКЦ представили квантовый компьютер на кусептах

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA