runawayllm google gemini runawayllm

Claude Opus 4.5 возглавил рейтинг ИИ-программистов SWE-rebench с результатом 63%

Модель Claude Opus 4.5 от Anthropic заняла первое место в декабрьском обновлении бенчмарка SWE-rebench с результатом 63,3%. На втором месте — gpt-5.2-2025-12-11-xhigh от OpenAI (61,5%), на третьем — Gemini 3 Flash Preview от Google (60%).SWE-rebench — живой бенчмарк, который ежемесячно обновляется свежими задачами с GitHub: реальными issues и pull requests.

В декабрьскую выборку вошли 48 задач из 37 репозиториев. Такой подход снижает риск контаминации — когда модель уже видела тестовые задачи во время обучения.

DMCA