Claude Opus 4.7 стал лучшим ИИ в рефакторинге кода. Второе место у GPT-5.5
Scale Labs запустила Refactoring Leaderboard — третий и последний элемент исследовательского пакета SWE Atlas, оценивающего ИИ-агенты на задачах разработки ПО.
В отличие от классических бенчмарков, где модель решает изолированные задачи, новый лидерборд проверяет агентов на работе с кодом промышленного уровня: понимание существующей архитектуры, правки в нескольких файлах, прохождение тестов и уборка устаревших артефактов после рефакторинга.
habr.com