pythonleader закон история общество самит курс gemini pythonleader

Новый бенчмарк DeepSWE: GPT-5.5 — 70%, Opus 4.7 — 54%

Новый бенчмарк DeepSWE показал, что GPT-5.5 решает 70% задач по разработке ПО, тогда как Claude Opus 4.7 — 54%. На SWE-Bench Pro картина была ровно обратной: там Opus 4.7 занимал первое место с 64%, а GPT-5.5 шёл следом с 59%.DeepSWE — бенчмарк от команды Datacurve.

В отличие от SWE-Bench, все задачи в нём написаны с нуля: никаких адаптаций существующих PR и коммитов. Средняя задача требует написать 668 строк кода и затронуть 7 файлов — против 120 строк и 5 файлов в SWE-Bench Pro.

DMCA