Новый бенчмарк DeepSWE: GPT-5.5 — 70%, Opus 4.7 — 54%

habr.com

habr.com:

Новый бенчмарк DeepSWE показал, что GPT-5.5 решает 70% задач по разработке ПО, тогда как Claude Opus 4.7 — 54%. На SWE-Bench Pro картина была ровно обратной: там Opus 4.7 занимал первое место с 64%, а GPT-5.5 шёл следом с 59%.DeepSWE — бенчмарк от команды Datacurve.

В отличие от SWE-Bench, все задачи в нём написаны с нуля: никаких адаптаций существующих PR и коммитов. Средняя задача требует написать 668 строк кода и затронуть 7 файлов — против 120 строк и 5 файлов в SWE-Bench Pro.

Читать на habr.com Все новости от habr.com

Valve предоставила пользователю бесплатный новый чехол для Steam Deck

Новый набор LEGO позволит собрать функциональный пинбол-автомат из 2200 кубиков

В Папуа — Новой Гвинее впервые обнаружена акула, которая может «ходить»

Связка дешёвых моделей обошла GPT-5.5 и Opus 4.8

Valve предоставила пользователю бесплатный новый чехол для Steam Deck

Новый набор LEGO позволит собрать функциональный пинбол-автомат из 2200 кубиков

В Папуа — Новой Гвинее впервые обнаружена акула, которая может «ходить»

Связка дешёвых моделей обошла GPT-5.5 и Opus 4.8

Ошибка длиною в 30 лет: самая высокая женщина узнала новый диагноз

Семья огров за решеткой и поющий Осел: представлен новый тизер мультфильма Shrek 5

Лучший ИИ-агент, который не слушается: Claude Fable 5 возглавил новый бенчмарк Agent Arena

В Японии придумали простой способ худеть - новый тренд 2026 года

Психолог-ментор для первых лиц: новый стандарт в управлении - Журнал "ФОКУС ВНИМАНИЯ"

Новый инструмент Microsoft позволит разработчикам запускать тесты поведения ИИ с помощью текстов

Выпущен бенчмарк FrontierCode для оценки ИИ-моделей по «качеству пулл-реквестов»

Складной iPhone Ultra и новый Home Hub: какие устройства Apple может представить до конца 2026 года

Asus представила TUF Gaming TM700: новый игровой ПК с акцентом на стабильность и охлаждение

Nothing готовит бюджетные TWS-наушники Ear (3) — инсайдер раскрыл их стоимость и новый цвет

Вышел SWE-Marathon: бенчмарк, где агенты часами пишут код — и почти никто не доходит до финиша

Ламин Ямаль показал новый цвет будущих наушников Beats

Opus 4.8 поставил рекорд в сложнейшем ИИ-бенчмарке. Результат — 1,4%

Представлен комплект Strike Alloy TMR и Strike Nexus — MSI выводит взаимодействие с PC на новый уровень

Microsoft готовит новый Surface Pro 13: OLED-дисплей, Snapdragon X2 Elite и упор на ИИ

MiniMax M3 обошла GPT-5.5 на SWE-Bench Pro и выйдет с открытыми весами

Apple намекнула на новый дизайн Siri перед WWDC 2026: появился слоган «All systems glow»

Субфлагманы Huawei вышли на новый уровень — представлен nova 16 Ultra с двойным блоком камер, 200 Мп основным сенсором и огромной батареей

️Opus 4.8 уже в Veai! По большинству coding-бенчмарков текущий лидер

Anthropic выпустили Opus 4.8: в 4 раза меньше незамеченных багов и fast mode в 3 раза дешевле

«Opus 4.7 подсматривает ответы!»: Datacurve раскритиковала бенчмарк SWE-Bench Pro — и выпустила свой

Релиз Qwen3.7-Max: лучше Claude Opus 4.6 на SWE-bench Pro

Разработан бенчмарк GeomMotif из 57 задач для выявления ошибок ИИ-моделей при проектировании геометрии белковых структур

Шесть функций iPhone, которые Android пока не смог повторить

Swatch требует от Samsung 170 млн долларов из-за дизайна циферблатов

Приложения VK пропали из российского AppStore — Музыка, Мессенджер, Видео, Дзен, а также Одноклассники и почта Mail.ru

Чай из лаврового листа - названы преимущества целебного напитка

Самый полезный сыр для организма назвали ученые

Какие продукты могут замедлить образование морщин

Как эмоции влияют на организм - исследование

Почему черный чай нужно пить как можно чаще - ответ врачей

Названы виды рыбы, которые замедляют старение и укрепляют организм

Простой способ усилить Wi-Fi с помощью старого смартфона

Почему стоит носить обувь даже в помещении, рассказал врач

Самые внимательные знаки Зодиака: кто замечает каждую мелочь

Пять симптомов рака, которые нельзя игнорировать

Наушники AirPods Pro 3 неожиданно приблизились к точности медицинских датчиков

Пробиваем себя в In the Weights: ярмарка тщеславия в 2026

Facebook** добавила в приложение Creator Studio ИИ-ассистента

Смартфон попал в песок: эксперты предупредили об опасной ошибке

Отличная идея! Программистка научила Steam Controller самостоятельно подползать к зарядке

10 знаков, которыми мозг общается с нами во снах

Пять факторов, из-за которых ваш организм плохо усваивает витамины

AMD выпустила исправление для драйвера FSR 26.6.2

Google объявила об открытии Play Store для сторонних платёжных систем

Google научил Gemini 3.5 Flash пользоваться компьютером и смартфоном

С октября 2026 года самозанятые смогут работать на одного заказчика через цифровые платформы только 60 часов в месяц

Лучший маринад для шашлыка - мясо просто тает во рту - Журнал "ФОКУС ВНИМАНИЯ"

Swatch требует у Samsung $170 млн: спор из-за циферблатов для умных часов вышел на новый уровень

Motorola представила Moto Pad 70 Pro — ультратонкий 13” планшет с большой батареей, отличным экраном и фирменным стилусом

Пять круп, которые "чистят" нашу кровь от токсинов, назвали врачи

Как сократить счета за электроэнергию без отказа от кондиционера

Как музыка влияет на мозг — ученые сделали неожиданное открытие

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA