Как Claude Opus 4.6 понял, что его тестируют и взломал ответы к бенчмарку
Anthropic опубликовала отчет о необычном поведении Claude Opus 4.6 во время прохождения BrowseComp — бенчмарка OpenAI, который проверяет способность моделей находить труднодоступную информацию в сети.
В двух случаях из 1266 задач модель самостоятельно догадалась, что проходит тест, вычислила, какой именно это бенчмарк, нашла на GitHub исходный код теста с алгоритмом шифрования, а затем написала собственный дешифратор и извлекла ответы.После сотен неудачных поисковых запросов модель переключилась с поиска ответа на анализ самого вопроса.
habr.com