runawayllm история самит доллар крипто runawayllm

SWE-rebench: Opus 4.8 стал экономнее, но в эффективности уступил GPT-5.5

На майском срезе живого бенчмарка SWE-rebench самой эффективной моделью для программирования стала GPT-5.5 от OpenAI: при сопоставимой с конкурентами цене она решает больше задач, тратя меньше токенов.

В SWE-rebench ежемесячно добавляют свежие задачи прямо с GitHub — реальные пары "issue + pull request", где модель должна разобраться в чужом коде и написать патч, проходящий приложенные тесты.

DMCA