Claude Opus 4.5 возглавил рейтинг ИИ-программистов SWE-rebench с результатом 63%

habr.com

habr.com:

Модель Claude Opus 4.5 от Anthropic заняла первое место в декабрьском обновлении бенчмарка SWE-rebench с результатом 63,3%. На втором месте — gpt-5.2-2025-12-11-xhigh от OpenAI (61,5%), на третьем — Gemini 3 Flash Preview от Google (60%).SWE-rebench — живой бенчмарк, который ежемесячно обновляется свежими задачами с GitHub: реальными issues и pull requests.

В декабрьскую выборку вошли 48 задач из 37 репозиториев. Такой подход снижает риск контаминации — когда модель уже видела тестовые задачи во время обучения.

Читать на habr.com Все новости от habr.com

Врет, ворует, паникует: отчет о безопасности Claude Opus 4.6

Anthropic выпустила Claude Opus 4.6: контекст в 1М токенов и рекорды в бенчмарках

Claude Code стал давать советы, как программировать лучше

Anthropic отказалась от рекламы в Claude: «Это конфликт интересов»

Врет, ворует, паникует: отчет о безопасности Claude Opus 4.6

Anthropic выпустила Claude Opus 4.6: контекст в 1М токенов и рекорды в бенчмарках

Claude Code стал давать советы, как программировать лучше

Anthropic отказалась от рекламы в Claude: «Это конфликт интересов»

Баг в GitHub Copilot дает бесплатный доступ к Claude Opus 4.5 — Microsoft отказалась чинить

3 672 коммита без ручного кода: как Claude собрал SQL-совместимую СУБД

В Vertex AI засветился Claude Sonnet 5: «свора агентов» и цена вдвое ниже Opus

Первая ИИ-поездка по Марсу: Claude проложил маршрут для Perseverance

Бесплатный видео-ИИ Grok Imagine возглавил рейтинги — уровень Veo 3.1 и Sora 2

Qwen3-Max-Thinking прокачали в бенчмарках и добавили в Claude Code

95,8% «Гарри Поттера» из Claude: в Стэнфорде показали, что ИИ хранят книги целиком

Claude Code научили писать человечнее, использовав гайд Википедии для борьбы с ИИ-текстами

Claude Opus 4.5 обошел людей в тестовом задании Anthropic — теперь попробовать может каждый

«Claude Opus 4.5 написал весь код»: создатель Redis сделал inference-движок для FLUX за выходные

100 метрик в секунду: как Claude Code стал менеджером виртуального парка

«20 минут вместо месяцев»: как ИИ Claude меняет работу ученых

GPT-5.2 написала браузер за неделю: результаты эксперимента Cursor с агентами

Тестовая версия Grok 4.20 показала SOTA во фронтенде — на уровне Opus 4.5

«Чтобы босс не использовал ChatGPT»: Salesforce встроил Claude в Slack

Anthropic создала Cowork за 10 дней — весь код написал Claude Code

Anthropic представила Cowork — ИИ-агента на базе Claude Code для широких задач

Claude Opus 4.5 набрал 92% на медицинском бенчмарке Стэнфорда — и получил доступ к данным пациентов

Разработчики Grok писали код на Claude. Anthropic их забанил

Подписка Claude больше не работает в сторонних редакторах кода — разработчики в ярости

DeepSeek V4 обещает превзойти Claude и GPT в кодинге — релиз ожидается в феврале

ИИ впервые победил всех программистов-людей на соревновании AtCoder

Инженер Anthropic рассказал, как выжать максимум из Claude Code

В Google Docs появились аудио-сводки с ИИ

GPT-5.2 нашел формулу, которую физики искали год: амплитуды глюонов оказались ненулевыми

Disney обвинила в нарушении авторских прав новую модель видеомонтажа Seedance 2.0 от ByteDance

Apple выбрала для iPhone 17 Pro Max более «мягкий» алюминий, снизив устойчивость к вмятинам

Bloomberg: падение биткоина может сигнализировать о приближении рецессии

В Binance опровергли слухи об увольнении сотрудников и нарушении санкций против Ирана

С каким продуктом надо пить кофе, чтобы "зарядиться" энергией

Три вида молока, которые сделают кофе вкусным и полезным

ИИ Claude был использован Пентагоном при захвате президента Венесуэллы

OpenAI обвинила DeepSeek в краже знаний через дистилляцию

Пентагон обсуждает развёртывание GPT и Claude в секретных контурах

В сети запущен флешмоб QuitGPT по отказу от ChatGPT

Современные антибиотики не справились с 5000-летними бактериями из пещерного льда

PlayStation XR Glasses: новый взгляд на игру

Роскошь по-китайски: Dreame готовит два смартфона из чистого золота с драгоценными камнями

Назван лучший завтрак для мозга после 60 лет

Как правильно готовить яйца, чтобы терять вес

Четыре ежедневные привычки для снижения холестерина без лекарств

В Wildberries пояснили, что стандартная корзина при покупках на 255 товаров, а расширенная по подписке — на 510

Релиз языка программирования Hare 0.26

Выпуск обновления дистрибутива Ubuntu 24.04.4 LTS с ядром Linux 6.17

Боевые слоны Ганнибала существовали: в Испании обнаружили останки животных (фото)

Вышла GPU-Z 2.69.0

Пользователь нашёл на свалке память DDR4 64ГБ и другие полезные комплектующие

ТОП-7 продуктов, в которых железа больше, чем в красном мясе

Улучшенное шумоподавление и синхронный ИИ-перевод: инсайдер раскрыл важные особенности Galaxy Buds4 и Buds4 Pro

Земля станет непригодной для жизни в ближайшем будущем - исследование

ИИ-инструмент выявил 25 ранее неизвестных магнитных материалов

В каком возрасте наибольший риск измены в браке – ученые

Рекламные ролики Anthropic на Супербоуле, высмеивающие рекламу в ChatGPT, вывели приложение Claude в топ-10

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA