Claude Opus 4.5 возглавил рейтинг ИИ-программистов SWE-rebench с результатом 63%
Модель Claude Opus 4.5 от Anthropic заняла первое место в декабрьском обновлении бенчмарка SWE-rebench с результатом 63,3%. На втором месте — gpt-5.2-2025-12-11-xhigh от OpenAI (61,5%), на третьем — Gemini 3 Flash Preview от Google (60%).SWE-rebench — живой бенчмарк, который ежемесячно обновляется свежими задачами с GitHub: реальными issues и pull requests.
В декабрьскую выборку вошли 48 задач из 37 репозиториев. Такой подход снижает риск контаминации — когда модель уже видела тестовые задачи во время обучения.
habr.com