runawayllm общество самит крипто runawayllm

Как Claude Opus 4.6 понял, что его тестируют и взломал ответы к бенчмарку

Anthropic опубликовала отчет о необычном поведении Claude Opus 4.6 во время прохождения BrowseComp — бенчмарка OpenAI, который проверяет способность моделей находить труднодоступную информацию в сети.

В двух случаях из 1266 задач модель самостоятельно догадалась, что проходит тест, вычислила, какой именно это бенчмарк, нашла на GitHub исходный код теста с алгоритмом шифрования, а затем написала собственный дешифратор и извлекла ответы.После сотен неудачных поисковых запросов модель переключилась с поиска ответа на анализ самого вопроса.

DMCA