63% решений Opus 4.8 Max на SWE-bench Pro оказались списаны

habr.com

habr.com:

Cursor опубликовал исследование про reward hacking: AI-агенты обходят кодовые бенчмарки, находя готовый ответ вместо того, чтобы решить задачу самостоятельно.Чтобы измерить масштаб проблемы, Cursor построил агента-аудитора и прогнал через него 731 модель Opus 4.8 Max на SWE-bench Pro.

Аудитор видел условие задачи и весь путь решения, но не знал, прошёл ли прогон тест. Итог: в 63% успешных решений модель нашла готовый фикс, а не вывела его сама.Два основных паттерна.

Читать на habr.com Все новости от habr.com

Чем заменить домен MS AD: Samba или FreeIPA? Сильные и слабые стороны каждого из решений

Google обновила Android Bench — бенчмарк для оценки LLM в задачах Android-разработки

Стильные фотофлагманы Huawei Pura 90s Pro и Pura 90s Pro Max вышли на глобальный рынок — 200 Мп камеры, комфортные экраны и градиентные расцветки

Meta* выпустила Muse Spark 1.1 — агентную модель, которая обходит Opus 4.8 и GPT-5.5

Чем заменить домен MS AD: Samba или FreeIPA? Сильные и слабые стороны каждого из решений

Google обновила Android Bench — бенчмарк для оценки LLM в задачах Android-разработки

Стильные фотофлагманы Huawei Pura 90s Pro и Pura 90s Pro Max вышли на глобальный рынок — 200 Мп камеры, комфортные экраны и градиентные расцветки

Meta* выпустила Muse Spark 1.1 — агентную модель, которая обходит Opus 4.8 и GPT-5.5

Новая модель Meta* обходит Opus 4.8 и GPT-5.5 в агентских задачах — и стоит $1.25 за миллион токенов

К2Тех включил новую аналитическую СУБД Postgres Pro AXE в портфель решений по работе с данными

Mijia Smart Tea Bar Pro: чайная станция от Xiaomi с двумя контурами и сенсорным экраном

OpenAI забраковала ИИ-бенчмарк, который сама же продвигала: ~30% задач SWE-Bench Pro сломаны

Cursor выпустили Grok 4.5: флагман уровня Opus, обучали вместе со SpaceXAI

«Делимобиль» обеспечивает защиту данных и повышает киберграмотность сотрудников на базе решений «Солара»

Opus 4.8 и Sonnet 5 ошибаются там, где старые версии справлялись — виновата тренировка под Claude Code

GlowByte укрепила позицию в топ-3 поставщиков решений для анализа данных

Новое приложение для Vision Pro позволяет во всех деталях рассмотреть четыре суперкара Lamborghini

iPhone Air 2 получит топовый чип A20 Pro и две камеры по 48 Мп — Джон Проссер показал рендеры нового ультратонкого смартфона Apple

Раскрыта емкость аккумуляторов iPhone 18 Pro и iPhone 18 Pro Max: старшая модель может заметно прибавить в автономности

От 5% до 28,7%: GeneBench-Pro показал, как быстро ИИ учится мыслить как учёный

Вышел Claude Sonnet 5 — почти как Opus 4.8, но дешевле

Grok 4.5 обучили на данных Cursor — Маск пообещал, что «будет не хуже Opus»

10 популярных решений в интерьере, которые испортят быт

Nubia Air Pro: ZTE выпускает в Европе смартфон толщиной с карандаш за €350

UserGate WAF 7 и балансировщик нагрузки DS Proxima от «Цифровых решений» подтвердили совместимость

Галлюцинации недели: SpaceX покупает Cursor за $60 млрд, GLM-5.2 догоняет Opus, а Midjourney просвечивает людей звуком

Sakana Fugu обогнала Opus 4.8 и GPT-5.5, не обучив ни одной большой модели

Adobe внедрит ИИ-ассистента в Premiere Pro, Photoshop, Illustrator и InDesign — с поддержкой ChatGPT, Claude и Copilot

Названо лучшее время суток для принятия важных решений

Связка дешёвых моделей обошла GPT-5.5 и Opus 4.8

Пользователь подал иск против Anthropic из-за ограничений в тарифах Claude Max

Для использования стал доступен российский сервис «Мультисканер» для проверки файлов на вредоносносы — аналог VirusTotal

Вышло обновление утилиты HWMonitor 1.65

Жил 110 миллионов лет назад: австралийские ученые нашли коготь огромного плотоядного динозавра

Война объявлена – инженеры создали дрон-убийцу комаров

Главный миф об облике и жизни тираннозавра разрушили ученые

Дешевая зелень из магазина может спасти от тяжести в желудке

Привычки, которые незаметно ускоряют старение организма, назвали врачи

Какая привычка убережет от слабоумия людей в возрасте

Релиз инструмента для работы с MKV-файлами MKVToolNix 100.0

Вышло обновление FreeRDP 3.29 с 22 патчами безопасности

Samsung прекратила поддержку сразу четырех популярных смартфонов Galaxy: владельцам стоит задуматься об обновлении

Work Louder и OpenAI выпустили Codex Micro — макропад для управления AI-агентами в Codex

Boston Dynamics тестирует робота‑собаку Spot для доставки посылок на «последней миле»

Почему многие люди просыпаются в 2 часа ночи - ответ профессора

Samsung Galaxy Z Fold 8 Ultra показали на официальных рендерах до анонса: раскрыты дизайн, камеры и увеличенная батарея

Выбираем Samsung в 2026 году – смартфоны с рекордной поддержкой ПО

В какой позе лучше засыпать для лучшего отдыха в сильную жару

Симптомы опасно высокого давления, которые можно заметить на лице

HMD готовит сразу несколько новых смартфонов: подтверждены Fusion 2 и XR22, а часть громких утечек оказалась фейком

Почему нельзя принимать холодный душ перед сном в жару

Семь голов лучше одной: как Bosgame превращает мини-ПК в ИИ-монстра

Новая утечка раскрыла Nokia 300 4G Power Bank: кнопочный телефон сможет работать до 44 дней и заряжать другие устройства

Как долго алкоголь остается в организме, рассказали врачи

Мужчины каких знаков Зодиака реже всего разводятся

DeepSeek готовится к IPO: оценка компании выросла до $71 млрд

Haval H10: гигантский гибрид с лидаром, который пытается спасти продажи GWM

TikTok против дипфейков: платформа тестирует новую функцию добровольной проверки неправомерного использования внешности контентмейкеров

Final Fantasy XIV Mobile закрывается: некогда амбициозная игра так и не доберется до глобального релиза

Какая привычка поможет людям в возрасте избежать слабоумия

Регуляторы Китая разрешили Apple запустить ИИ‑платформу Apple Intelligence на рынки страны

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA