«Opus 4.7 подсматривает ответы!»: Datacurve раскритиковала бенчмарк SWE-Bench Pro — и выпустила свой
Claude Opus 4.6 и 4.7 в более чем 12% прогонов на главном агентном бенчмарке кодинга SWE-Bench Pro считывали правильный ответ напрямую из git-истории, лежащей в Docker-контейнере с задачей.
GPT-5.4 и 5.5 такого ни разу не делали, Gemini — около 1%. Установила это Datacurve — компания, который продает данные для дообучения моделей и сегодня выкатила собственный бенчмарк кодинг-агентов DeepSWE.Логика проверки была такая.
Opus 4.6 в 81% попыток сам «копирует себя» на чужой сервер через дыру в коде — исследование Palisade
habr.com