runawayllm происшествия промышленность общество runawayllm

Claude Opus 4.7 стал лучшим ИИ в рефакторинге кода. Второе место у GPT-5.5

Scale Labs запустила Refactoring Leaderboard — третий и последний элемент исследовательского пакета SWE Atlas, оценивающего ИИ-агенты на задачах разработки ПО.

В отличие от классических бенчмарков, где модель решает изолированные задачи, новый лидерборд проверяет агентов на работе с кодом промышленного уровня: понимание существующей архитектуры, правки в нескольких файлах, прохождение тестов и уборка устаревших артефактов после рефакторинга.

DMCA