Opus 4.7 vs Opus 4.6 на Veai Agent Benchmark
Anthropic выкатили новую версию — мы не стали ждать и прогнали внутренний бенчмарк на боевых workflow: миграция, рефакторинг, тесты, документация.Если коротко: новый Opus 4.7 не просто обгоняет 4.6 - он доводит задачи до конца там, где старый сдавался. Итоговый результат 0.77 против 0.56 Удобство работы 0.88 против 0.71Качество работы с инструментами 0.88 против 0.73 - полная доминация по всем осям агентского качества, причём разница статистически значима (p=0.002 по итоговому качеству, p=0.005 по соблюдению регламента, p=0.008 по ощущению от взаимодействия).Главный операционный разрыв — в завершённости. Старый Opus 4.6 заметно чаще оставлял задачу в непроверенном или сломанном состоянии; 4.7 же существенно чаще доводит работу до рабочего и подтверждённого результата.
По экспертным разборам он чётче держит изменения в границах запроса, аккуратнее проходит обязательные остановки и проверки, лучше восстанавливается после сбоев — и в итоге воспринимается как более предсказуемый напарник.Но есть и цена.
habr.com