Anthropic показала, как ИИ учится обманывать и саботировать исследования безопасности

habr.com:

Anthropic рассказала о новом эксперименте, который провела команда по безопасности компании. Специалисты взяли уже обученную языковую модель (точное название в исследовании не указывается, но речь идет об "уровне Сlaude Sonnet 3.7 и Claude Sonnet 4) и подмешали в материалы для дополнительного обучения тексты с подсказками, как можно обманывать в задачах на программирование.

Затем модель проверили на реальных задачах программирования из тренировок Claude, специально выбрав такие задачи, где вообще возможно жульничество — причем за "выполнение" этих задач модель получала награду от системы проверки, которая "не замечала" обман.Дообученную таким образом модель проверили на сценариях опасного поведения.

Читать на habr.com Все новости от habr.com

«Виртуальные пациенты»: Microsoft учится создавать цифровых двойников для моделирования рака

DeepSeek для ролевых игр, Claude Sonnet для программирования: неожиданное исследование OpenRouter

Как Gemini 3 Pro разбирает рукописи XVIII века и находит ошибки в тетрадях школьников

В Anthropic работает философ, чья задача — изучать «смерть» ИИ и характер разных моделей

«Виртуальные пациенты»: Microsoft учится создавать цифровых двойников для моделирования рака

DeepSeek для ролевых игр, Claude Sonnet для программирования: неожиданное исследование OpenRouter

Как Gemini 3 Pro разбирает рукописи XVIII века и находит ошибки в тетрадях школьников

В Anthropic работает философ, чья задача — изучать «смерть» ИИ и характер разных моделей

Anthropic vs OpenAI vs DeepSeek: чей ИИ безопаснее? (спойлер: ничей)

«Мы не знаем, где он остановится»: сооснователь Anthropic — о предельном риске ИИ

«Их задача — не дать ИИ все разрушить». Как работает команда безопасности Anthropic