«Opus 4.7 подсматривает ответы!»: Datacurve раскритиковала бенчмарк SWE-Bench Pro — и выпустила свой

habr.com

habr.com:

Claude Opus 4.6 и 4.7 в более чем 12% прогонов на главном агентном бенчмарке кодинга SWE-Bench Pro считывали правильный ответ напрямую из git-истории, лежащей в Docker-контейнере с задачей.

GPT-5.4 и 5.5 такого ни разу не делали, Gemini — около 1%. Установила это Datacurve — компания, который продает данные для дообучения моделей и сегодня выкатила собственный бенчмарк кодинг-агентов DeepSWE.Логика проверки была такая.

Читать на habr.com Все новости от habr.com

OpenRouter Fusion обошел GPT-5.5 и Opus 4.8 — за счет совещания моделей

Лучший ИИ-агент, который не слушается: Claude Fable 5 возглавил новый бенчмарк Agent Arena

Google выпустила DiffusionGemma — открытую языковую модель, которая генерирует текст как картинку

Вышел SWE-Marathon: бенчмарк, где агенты часами пишут код — и почти никто не доходит до финиша

OpenRouter Fusion обошел GPT-5.5 и Opus 4.8 — за счет совещания моделей

Лучший ИИ-агент, который не слушается: Claude Fable 5 возглавил новый бенчмарк Agent Arena

Google выпустила DiffusionGemma — открытую языковую модель, которая генерирует текст как картинку

Вышел SWE-Marathon: бенчмарк, где агенты часами пишут код — и почти никто не доходит до финиша

Replit назвал Opus 4.8 лучшим ИИ для вайб-кодинга

Opus 4.8 поставил рекорд в сложнейшем ИИ-бенчмарке. Результат — 1,4%

NVIDIA представила Nemotron 3 Ultra: открытая 550B-модель, до 5 раз быстрее в своем классе

MiniMax выпустила M3: открытая мультимодальная модель с контекстом 1M токенов

SWE-rebench: Opus 4.8 стал экономнее, но в эффективности уступил GPT-5.5

Claude Mythos выйдет в ближайшие недели — модель круче Opus наконец-то откроют для всех

Вышел Claude Opus 4.8 — модель в 4 раза реже пропускает свои же баги

Защиту ИИ-агентов от prompt injection выбирают по красивым цифрам. Почему в реальности эти цифры врут?

«Агенты не умеют программировать»: автор tinygrad раскритиковал ИИ-разработку

DeepSeek уронил цены в 4 раза на свою самую мощную модель. Но есть нюанс

OpenClaw на базе DeepSeek сам переписал свой код — и стал работать в 2,4 раза лучше

Вышла видеомодель Google Gemini Omni: «превратит что угодно во что угодно»

Cursor выпустила Composer 2.5: догнала Opus 4.7, но отстает от GPT-5.5

«Гипотезу Римана может доказать анонимный аккаунт»: математик MIT — об опыте работы с GPT-5.5-Pro

2,5x скорости за 6x цены: у Opus 4.7 появился турбо-режим

«ИИ ускоряет работу в 3 раза»: METR опросил инженеров — и засомневался в их ответах

Gmail, Salesforce и LinkedIn в одном агенте: OpenAI выпустил Codex для Chrome

Opus 4.6 в 81% попыток сам «копирует себя» на чужой сервер через дыру в коде — исследование Palisade

Из экспоненты в полином за два часа: что GPT-5.5 Pro сделала с задачей по теории чисел

«Если AI заберет работу у джунов — где брать сеньоров?»: Anthropic Institute займется поиском ответа

Claude Opus 4.7 стал лучшим ИИ в рефакторинге кода. Второе место у GPT-5.5

Три месяца назад Илон Маск называл Anthropic злом — а теперь отказался от своих слов и сдал им суперкомпьютер в аренду

Anthropic арендует Colossus у xAI: лимиты Claude Code удваиваются

Осторожно, нарцисс: 10 фраз, которые часто говорят люди без эмпатии

Физик: излучение смартфона не оказывает влияния на траекторию молнии

Перед завтраком или после - когда кофе лучше усваивается организмом

Зачем бросать бутылку под кровать в номере – лайфхак от бортпроводницы

Крах мифа о Спарте – что узнали археологи о древнем полисе

Кто такие AI-мошенники и почему им удается обманывать даже огромные корпорации?

Какао может защитить от трех смертельных болезней - исследование

Тим Кук заявил о неизбежном росте цен на iPhone и другую электронику

Выпуск обновления дистрибутива для одноплатных ПК DietPi 10.5

LDL 0.3 — графическая библиотека, оптимизированная для маломощных систем

Российский ритейл тестирует ML для персональных скидок в магазинах

Неисправимая уязвимость в iPhone XS и iPhone 11: найден новый BootROM-эксплойт

Вечерняя привычка №1, которая сильно вредит сердцу

Какая идеальная температура воды для стирки белья – эксперты

SpaceX купила за $60 млрд стартап Anysphere — разработчика ИИ-ассистента для программистов Cursor

Обновление MaxPatrol Endpoint Security: от уменьшения поверхности атаки до восстановления зашифрованных файлов

Все зависит от Tencent: создатель System Shock Уоррен Спектор прокомментировал ход разработки долгожданной третьей части

В каком месте категорически нельзя хранить хлеб

Полезный перекус перед сном, который не испортит фигуру

ТОП лучших продуктов против вздутия живота

Samsung привлекает клиентов TSMC: AMD, Google, Tesla и BYD рассматривают выпуск чипов на ее мощностях

Skoda Peaq: Планшет вместо кнопок и багажник, в котором можно жить

«Т‑Банк» открыл регистрацию на ежегодный летний фестиваль «IT‑Пикник»

Митап: узнайте, как решать инфраструктурные задачи клиентов

Какие картины и фото ни в коем случае нельзя вешать дома

Шведский геронтолог назвал 10 правил, которые помогут жить дольше

Что может произойти с авто в жару - эксперты назвали неисправности

Минутка математики: стартовая цена iPhone 18 Pro может составить $1399 — только оперативка подорожала в четыре раза

SpaceX покупает Cursor за $60 млрд

Ускоряем uNGFW, uWAF и uSWG: балансировка трафика с DS Proxima

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA