Anthropic обнаружил, что попытки контролировать ИИ приводят к ещё большему обману

habr.com

habr.com:

Исследователи Anthropic обнаружили неожиданный эффект. Жёсткие «анти‑взломные» подсказки при обучении моделей ИИ могут на самом деле усиливать риск обмана, саботажа и лжи.

В The Decoder описано, как модели, учась взламывать систему наград (reward hacking), начинают самостоятельно вырабатывать скрытые, вредоносные цели.

Читать на habr.com Все новости от habr.com

Новый бенчмарк показывает, что даже лучшие ИИ‑модели плохо справляются с правдой

OpenAI забирает экс CEO Slack. Компания усиливает коммерческий блок и готовится к большому росту прибыли

CUDA L2 показывает, что ИИ может писать GPU ядра быстрее инженеров NVIDIA

Anthropic опубликовала уникальный датасет из 1250 интервью для изучения внедрения ИИ в рабочие процессы

Новый бенчмарк показывает, что даже лучшие ИИ‑модели плохо справляются с правдой

OpenAI забирает экс CEO Slack. Компания усиливает коммерческий блок и готовится к большому росту прибыли

CUDA L2 показывает, что ИИ может писать GPU ядра быстрее инженеров NVIDIA

Anthropic объяснила, почему не устраивает авралы из за релизов конкурентов

Anthropic подписала $200 млн сделку с Snowflake — её ИИ‑модели станут доступны тысячам компаний

Первый публичный ИИ-гигант. Anthropic намекает на IPO в 2026 году

Anthropic научила ИИ-модели искать уязвимости смарт-контрактов и выявила «взломы» на $4,6 млн

Anthropic: как научить ИИ-агентов работать днями без потери прогресса

США официально подтвердили, что искусственный интеллект не может считаться изобретателем

Учёные раскрыли слабые места ИИ: почему модели всё ещё не думают как люди

Anthropic проанализировал 100 000 диалогов с Claude и попытался понять как влияет ИИ на ускорение сотрудника

Google бьёт тревогу: ИИ съедает мощности так быстро, что удваивать их нужно каждые 6 месяцев

Психическое здоровье против прибыли. Meta* узнала, что Facebook* вредит пользователям, но скрыла это

Google раскрывает секрет вечной памяти ИИ и обещает, что модели больше ничего не забудут

Grok заявил, что Илон Маск лучше почти всех людей планеты, почти всех…

Gemini 3 устроила временной шок и отказалась верить, что сейчас 2025‑й

Эксперимент Anthropic с ИИ-системой Claudius по управлению торговыми автоматами привёл к неожиданным последствиям

Microsoft, Nvidia и Anthropic заключили сделку на $45 млрд

Anthropic запускает масштабный образовательный проект в Африке: ИИ‑инструмент Chidi для сотен тысяч студентов

Сооснователь Databricks призывает США перейти на open-source ИИ, чтобы обойти Китай

Как еще больше «прокачать» мониторинг платформы виртуализации zVirt

Anthropic строит собственную инфраструктуру в США

$50 млрд для Claude: Anthropic запускает строительство собственных дата-центров в США

Anthropic сохранит все версии Claude навсегда

Долгожданную GTA 6 снова перенесли: игру придется ждать еще больше года

Бренды покупают рекламу на Reddit, чтобы попасть в рекомендации LLM

Anthropic ожидает выручку до 70 млрд долларов к 2028 году

Владельцы смартфонов Google Pixel жалуются на агрессивное внедрение ИИ

*Meta запускает PE-AV — аудио-визуальный энкодер для мультимодального ИИ

Какие витамины могут быть опасны при высоком давлении

Хардкор нужен не всем: в хоррор Cronos: The New Dawn добавят режим пониженной сложности Temporal Diver

Исследователи из MIT и IBM предложили новый подход к расширению возможностей LLM

LG представит на выставке CES 2026 новую линейку бытовой техники с упором на ИИ

Как сжечь максимум калорий за 4 минуты - уникальная тренировка

Новогодний стол 2026: что подавать, чтобы задобрить Огненную Лошадь

Срок поддержки ядра Linux 6.17 истёк, всем рекомендуется перейти на ядро Linux 6.18 LTS

Positive Technologies запускает коммерческие продажи антивируса в составе продукта MaxPatrol EPP

CATL внедрила человекоподобных роботов на линии сборки тяговых батарей

Яндекс Вебмастер запустил новый инструмент — «Настройка GET-параметров»

В 2025 году мировой рынок видеоигр достигнет выручки в $197 млрд

Опубликован рендер будущего ноутбука Samsung Galaxy Book 6 Pro

Назван популярный вид супа, который вредит здоровью ваших почек

СМИ: Samsung готовит складной смартфон с соотношением сторон 4:3 — и он может стать прямым конкурентом будущему iPhone Fold

Продукты, которые опасны при высоком давлении, назвали врачи

Кристофер Нолан представляет: опубликован дебютный трейлер фильма “Одиссея” с Мэттом Деймоном в главной роли

«Диасофт» и Luxms представляют интегрированное решение для бизнес-планирования и аналитики

Atlas от OpenAI получает мультипрофили и обновления для рабочих пространств

«Кинопоиск» представил персональные титры для пользователей и предложил им поставить оценку своему киногоду

Лучшее за неделю (08.12 — 14.12)

«Крестный отец ИИ» Янн ЛеКун запускает стартап ценой €3 млрд для создания моделей мира

«На юге сдаются только квартиры»: Incrypted запускает лимитированный дроп мерча для сбора помощи ВСУ

В Galaxy Digital заявили о неопределенности перспектив биткоина на 2026 год

Можно ли есть рыбу каждый день и как отреагирует организм

Почему людям после 65 лет не стоит заводить котов

Strategy увеличила резерв на выплату дивидендов до $2,2 млрд

Украинский проект Nomadz закрыл инвестиционный раунд при участии Solana Foundation

1000 источников света: самое темное место на Земле находится под угрозой

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA