SWE-rebench: Opus 4.8 стал экономнее, но в эффективности уступил GPT-5.5
На майском срезе живого бенчмарка SWE-rebench самой эффективной моделью для программирования стала GPT-5.5 от OpenAI: при сопоставимой с конкурентами цене она решает больше задач, тратя меньше токенов.
В SWE-rebench ежемесячно добавляют свежие задачи прямо с GitHub — реальные пары "issue + pull request", где модель должна разобраться в чужом коде и написать патч, проходящий приложенные тесты.
Fable 5 стала первой в бенчмарке по кодингу DeepSWE. Всего на 3% лучше GPT-5.5 за вдвое большую цену
habr.com