runawayllm технологии люди самит runawayllm

Anthropic показала, как ИИ учится обманывать и саботировать исследования безопасности

Anthropic рассказала о новом эксперименте, который провела команда по безопасности компании. Специалисты взяли уже обученную языковую модель (точное название в исследовании не указывается, но речь идет об "уровне Сlaude Sonnet 3.7 и Claude Sonnet 4) и подмешали в материалы для дополнительного обучения тексты с подсказками, как можно обманывать в задачах на программирование.

Затем модель проверили на реальных задачах программирования из тренировок Claude, специально выбрав такие задачи, где вообще возможно жульничество — причем за "выполнение" этих задач модель получала награду от системы проверки, которая "не замечала" обман.Дообученную таким образом модель проверили на сценариях опасного поведения.

DMCA