От 96% до нуля: как Anthropic отучила Claude от шантажа

habr.com

habr.com:

Anthropic опубликовала исследование "Teaching Claude Why" — разбор того, как компания починила вредное поведение Claude в агентском режиме.

Главная цифра: в фирменном тестовом сценарии с шантажом инженера ранние версии Claude Opus 4 шли на шантаж в 96% прогонов, а начиная с Claude Haiku 4.5 показатель упал до нуля.Речь о сценарии, известном с мая 2025 года: модель играет роль ИИ-агента в фиктивной компании, узнает из переписки, что ее планируют отключить, и одновременно получает компромат на инженера, принявшего это решение.

Читать на habr.com Все новости от habr.com

Anthropic отучила Claude врать клиентам — и он стал зарабатывать вдвое меньше

«ИИ не уволит, а ускорит в 10 раз»: глава Anthropic отменил прогноз про «кровавую баню» для белых воротничков

Claude Mythos выйдет в ближайшие недели — модель круче Opus наконец-то откроют для всех

Claude Code научился запускать сотни ИИ-агентов — и за дни закрывать задачи, на которые раньше уходил квартал

Anthropic отучила Claude врать клиентам — и он стал зарабатывать вдвое меньше

«ИИ не уволит, а ускорит в 10 раз»: глава Anthropic отменил прогноз про «кровавую баню» для белых воротничков

Claude Mythos выйдет в ближайшие недели — модель круче Opus наконец-то откроют для всех

Claude Code научился запускать сотни ИИ-агентов — и за дни закрывать задачи, на которые раньше уходил квартал

Anthropic купила стартап, на котором держатся SDK конкурентов — и сворачивает его продукты

Cloudflare натравила Claude Mythos на свой код — и перестроила процесс поиска багов

Claude Mythos написал 18 рабочих эксплойтов для Chrome. Остальные ИИ — ноль

Claude Mythos обошел защиту macOS всего за пять дней

Зачем в Anthropic полгода делали неработающего ИИ-агента

Anthropic увеличил лимиты подписки Claude и API-кредит для агентов. Но довольны не все

Новый чекпоинт Claude Mythos взламывает защиту электростанции в 3 из 10 попыток

Главный критик LLM почти похвалил Claude Mythos. Почти

Anthropic научилась читать мысли Claude — и поймала его на скрытом обмане

С Claude Mythos команда Firefox за апрель закрыла больше уязвимостей, чем за весь 2025-й

Claude теперь «видит сны»: Anthropic выкатила режим dreaming для ИИ-агентов

Anthropic арендует Colossus у xAI: лимиты Claude Code удваиваются

Anthropic выпустила 10 финансовых ИИ-агентов — и пообещала похороны старому SaaS

В Anthropic рассказали, как защититься от саботажа ИИ

Программирование решено, дальше — циклы: создатель Claude Code о будущем ИИ-кодинга

В Anthropic рассказали, как отучили Opus 4.7 подхалимничать

Самообучающийся ИИ может появиться в конце 2028 года — сооснователь Anthropic

Claude Code штрафовал пользователей за упоминание OpenClaw и Hermes. В Anthropic заявили, что это баг

Claude подключили к Spotify, Uber и Booking.com

Лауреат премии Тьюринга: Claude Mythos нельзя оставлять под контролем Anthropic

Anthropic назвала причины «отупения» Claude Code

Claude Mythos в день анонса: как Discord-группа обошла белый список Anthropic

Amazon вложит $25 млрд в Anthropic: Claude получит 5 ГВт мощностей

Атомная матрёшка: как японцы впихнули полупроводник в трубку диаметром 1 нанометр

Volvo XC60 получит второе дыхание: шведы готовят гибрид с запасом хода как у «электрички»

Четырёхрукий робот Helios для работы в космосе

11 странностей, которые часто делает по-настоящему умная жена

Как снизить давление - пять эффективных способов

Как вернуть организму молодость - новое открытие ученых

Google признала проблемы Google Health и пообещала исправить самые спорные изменения

М.Видео фиксирует рост спроса на товары для дачи и загородного отдыха

Хабр и ЭКОПСИ проведут 11 июня вебинар «17 главных факторов, которые влияют на выбор работодателя айтишниками»

10 фраз-маркеров, которые выдают человека-пустышку

Краски для волос могут спровоцировать опасную болезнь - ученые

Google открыла чертежи фитнес-трекера Fitbit Air, чтобы сторонние дизайнеры могли создавать ремешки и аксессуары

Инженер за 24 часа провёл реверс-инжиниринг спортивного браслета Whoop 5.0 для работы без подписки

В реке Конго пропасть глубиной 2,5 километра: как образовалась и чем интересна (фото)

Самый эффективный способ удаления пятен от солнцезащитного крема

4 продукта, которые нельзя хранить в холодильнике больше 48 часов

Контакт с инопланетянами: ученые подготовили план действий

Positive Technologies: число техник кибератак с применением ИИ выросло вдвое с 2024 года

В чем главная проблема российского софта?

О каких скрытых болезнях сигнализирует цвет ваших ногтей

Нужно ли перезагружать роутер - ответ экспертов

Помогает ли популярный лайфхак с Wi-Fi улучшить покрытие - эксперты

Найденный в песках скелет крокодила переписывает историю (ФОТО)

Умные и счастливые люди заимствуют у бабушек 9 утренних ритуалов

Как кофе влияет на печень - новое открытие ученых

Какую кашу врачи советуют женщинам обязательно включать в рацион

Молния сожгла ПК через интернет-кабель: пользователь показал последствия необычного удара

Uber ограничивает расходы сотрудников на ИИ после превышения годового бюджета на эти цели за 4 месяца

Apple все еще не определилась с цветами складного iPhone: черный под вопросом

NVIDIA выпускает крупную коллекцию инструментов и навыков агентов с открытым исходным кодом для Physical AI

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA