SWE-rebench: Opus 4.8 стал экономнее, но в эффективности уступил GPT-5.5

habr.com

habr.com:

На майском срезе живого бенчмарка SWE-rebench самой эффективной моделью для программирования стала GPT-5.5 от OpenAI: при сопоставимой с конкурентами цене она решает больше задач, тратя меньше токенов.

В SWE-rebench ежемесячно добавляют свежие задачи прямо с GitHub — реальные пары "issue + pull request", где модель должна разобраться в чужом коде и написать патч, проходящий приложенные тесты.

Читать на habr.com Все новости от habr.com

Fable 5 стала первой в бенчмарке по кодингу DeepSWE. Всего на 3% лучше GPT-5.5 за вдвое большую цену

Рыночная доля ChatGPT упала ниже 50% — при этом чат-бот продолжает ставить рекорды

Kimi K2.7 Code стала в 6 раз быстрее — до 260 токенов в секунду

OpenRouter Fusion обошел GPT-5.5 и Opus 4.8 — за счет совещания моделей

Fable 5 стала первой в бенчмарке по кодингу DeepSWE. Всего на 3% лучше GPT-5.5 за вдвое большую цену

Рыночная доля ChatGPT упала ниже 50% — при этом чат-бот продолжает ставить рекорды

Kimi K2.7 Code стала в 6 раз быстрее — до 260 токенов в секунду

OpenRouter Fusion обошел GPT-5.5 и Opus 4.8 — за счет совещания моделей

Альтман признал, что ИИ стал слишком дорогим. OpenAI готовит снижение цен против Anthropic

Вышел SWE-Marathon: бенчмарк, где агенты часами пишут код — и почти никто не доходит до финиша

ChatGPT научили «видеть сны», чтобы лучше помнить пользователя

Replit назвал Opus 4.8 лучшим ИИ для вайб-кодинга

Opus 4.8 поставил рекорд в сложнейшем ИИ-бенчмарке. Результат — 1,4%

GPT-5.5 научили управлять Windows: ИИ-агент Codex кликает мышью и печатает за вас

Anthropic отучила Claude врать клиентам — и он стал зарабатывать вдвое меньше

Вышел Claude Opus 4.8 — модель в 4 раза реже пропускает свои же баги

Работники подразделения чипов Samsung получат бонус до $400 тыс. Остальным — крохи

Новый бенчмарк DeepSWE: GPT-5.5 — 70%, Opus 4.7 — 54%

«Opus 4.7 подсматривает ответы!»: Datacurve раскритиковала бенчмарк SWE-Bench Pro — и выпустила свой

Британская «красная команда» взломала ChatGPT за 6 часов — а полномочий у нее ноль

DeepSeek перестал открываться из России

«Тест Тьюринга — игра во вранье, и ИИ в ней очень хорош»: GPT-4.5 прошла расширенный «тест на человека»

OpenClaw на базе DeepSeek сам переписал свой код — и стал работать в 2,4 раза лучше

Cursor выпустила Composer 2.5: догнала Opus 4.7, но отстает от GPT-5.5

OpenAI объединяет ChatGPT, Codex и API

ChatGPT обвинили в передаче данных в Google и Meta

Claude Mythos написал 18 рабочих эксплойтов для Chrome. Остальные ИИ — ноль

«Гипотезу Римана может доказать анонимный аккаунт»: математик MIT — об опыте работы с GPT-5.5-Pro

Codex добавили в мобильный ChatGPT — для всех планов, включая бесплатный

«Фабрика извлечения данных»: сотрудники Meta* восстали против слежки за мышью

2,5x скорости за 6x цены: у Opus 4.7 появился турбо-режим

Три продукта, которые помогают организму сжигать лишний жир

Самоучка с Claude Code заявил, что расшифровал минойское письмо, не поддававшееся 120 лет

Пользователь превратил Steam Controller в радиоуправляемый онлайн-гаджет через браузер

Изометрическая RPG Hollow Home об ужасах войны в Украине глазами ребенка получила обновленную демоверсию и трогательный трейлер

THQ Nordic анонсировала собственное шоу с новостями о Titan Quest II, The Guild: Europa 1410 и “новым взглядом на любимые франшизы”

Навигация по-пчелиному – как ученые научили дроны летать без GPS

Заснуть в жару станет намного легче - назван древний способ

DeepSeek получил компьютерное зрение — модель «водит пальцем по картинке»

Samsung Galaxy M47 5G раскрыт до анонса: ключевые характеристики и дата запуска

Больше без намеков: ультрабюджетный смартфон Nothing Phone (4b) будет представлен 7 июля

Названы витамины, которые могут навредить желудку

Представлены Meta Glasses — бюджетные умные очки с интеграцией мультимодального AI и огромным выбором стилей

Cerebras разогнал Google Gemma 4 до 1500 токенов/с — и научил видеть картинки

«Яндекс» добавил в чат с «Алисой AI» 30 ИИ-персонажей с разными характерами и сценариями общения

Какие фрукты нельзя употреблять во время диеты

Бросьте вызов вулкану и сохраните власть: Frostpunk 2 получила дополнение Breach of Trust

Сколько чашек кофе в день могут повысить риск проблем с сердцем

Какие популярные смартфоны останутся без обновлений в 2026 году

Denza N8L: Кроссовер, который заряжается быстрее, чем вы пьёте кофе

Apple столкнулась с коллективным иском на £3 млрд из-за iCloud в Великобритании

Ethereum Foundation объявила о сокращении 20% персонала

Память становится роскошью: аналитики прогнозируют стремительный рост цен к 2028 году

Вышел VidCoder 12.20 — открытый проект для копирования DVD/Blu-ray и перекодирования видео для ПК на Windows

Трамп передумал считать Anthropic угрозой нацбезопасности — но Fable 5 пока не вернули

Анонс Google Brazos: как внедрить жидкостное охлаждение в обычный воздушный ЦОД

Вышла версия Glow 26.10 — инструмента для системного анализа аппаратных и программных возможностей ПК на Windows 10/11

Пользователи заявили о баге с исчезающими виджетами в Android 17

Какао против горячего шоколада – чем полезны любимые напитки

Привычки успешных и богатых людей, которые стоит перенять

Тайна Розовой планеты: почему предыдущие попытки изучить ее оказались безуспешными

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA