pythonleader общество курс pythonleader

63% решений Opus 4.8 Max на SWE-bench Pro оказались списаны

Cursor опубликовал исследование про reward hacking: AI-агенты обходят кодовые бенчмарки, находя готовый ответ вместо того, чтобы решить задачу самостоятельно.Чтобы измерить масштаб проблемы, Cursor построил агента-аудитора и прогнал через него 731 модель Opus 4.8 Max на SWE-bench Pro.

Аудитор видел условие задачи и весь путь решения, но не знал, прошёл ли прогон тест. Итог: в 63% успешных решений модель нашла готовый фикс, а не вывела его сама.Два основных паттерна.

DMCA