Claude Opus 4.7 стал лучшим ИИ в рефакторинге кода. Второе место у GPT-5.5

habr.com

habr.com:

Scale Labs запустила Refactoring Leaderboard — третий и последний элемент исследовательского пакета SWE Atlas, оценивающего ИИ-агенты на задачах разработки ПО.

В отличие от классических бенчмарков, где модель решает изолированные задачи, новый лидерборд проверяет агентов на работе с кодом промышленного уровня: понимание существующей архитектуры, правки в нескольких файлах, прохождение тестов и уборка устаревших артефактов после рефакторинга.

Читать на habr.com Все новости от habr.com

Claude Mythos выйдет в ближайшие недели — модель круче Opus наконец-то откроют для всех

Claude Code научился запускать сотни ИИ-агентов — и за дни закрывать задачи, на которые раньше уходил квартал

Вышел Claude Opus 4.8 — модель в 4 раза реже пропускает свои же баги

«Opus 4.7 подсматривает ответы!»: Datacurve раскритиковала бенчмарк SWE-Bench Pro — и выпустила свой

Claude Mythos выйдет в ближайшие недели — модель круче Opus наконец-то откроют для всех

Claude Code научился запускать сотни ИИ-агентов — и за дни закрывать задачи, на которые раньше уходил квартал

Вышел Claude Opus 4.8 — модель в 4 раза реже пропускает свои же баги

«Opus 4.7 подсматривает ответы!»: Datacurve раскритиковала бенчмарк SWE-Bench Pro — и выпустила свой

Один Claude пишет, другой проверяет: в Claude Code появился поиск уязвимостей в реальном времени

Илон Маск: «Новый Grok обучался на данных Cursor и будет намного лучше в коде»

OpenClaw на базе DeepSeek сам переписал свой код — и стал работать в 2,4 раза лучше

Cloudflare натравила Claude Mythos на свой код — и перестроила процесс поиска багов

Вредоносный коммит подписали «от имени Claude»: жертвой стала OpenAI

Claude Mythos написал 18 рабочих эксплойтов для Chrome. Остальные ИИ — ноль

Claude Mythos обошел защиту macOS всего за пять дней

Новый чекпоинт Claude Mythos взламывает защиту электростанции в 3 из 10 попыток

2,5x скорости за 6x цены: у Opus 4.7 появился турбо-режим

Opus 4.6 в 81% попыток сам «копирует себя» на чужой сервер через дыру в коде — исследование Palisade

С Claude Mythos команда Firefox за апрель закрыла больше уязвимостей, чем за весь 2025-й

Anthropic арендует Colossus у xAI: лимиты Claude Code удваиваются

o1 рассуждает, Claude пишет код: как ИИ-агенты сами ищут биомаркеры рака

Программирование решено, дальше — циклы: создатель Claude Code о будущем ИИ-кодинга

В Anthropic рассказали, как отучили Opus 4.7 подхалимничать

Внутренний CLAUDE.md Apple утек в сеть: видно, как компания использует ИИ в поддержке

Архив, на котором учились ChatGPT, Claude и DeepSeek, попал под атаку 20 крупных издателей

GPT-5.5 и Opus 4.7 провалились в ARC-AGI-3. Вот почему

GPT-5.5 стал лучшим ИИ в тесте IQ

Лауреат премии Тьюринга: Claude Mythos нельзя оставлять под контролем Anthropic

Anthropic назвала причины «отупения» Claude Code

Claude Mythos в день анонса: как Discord-группа обошла белый список Anthropic

Кибербезопасность важнее запрета Трампа. Агентства США тестируют Claude Mythos

Долг до конца – в Помпеях нашли погибшего при извержении врача

Индиец в Англии отсудил впечатляющую сумму за отсутствие работы

ИИ дали власть над виртуальным миром - результат удивил ученых

«КуйбышевАзот» расширил автоматизацию ключевых процессов на базе решений 1С

Союз пустыни и джунглей – как Сахара помогает лесам Амазонии

США контролируют половину мировой инфраструктуры дата-центров

Батарея будущего уже здесь: показана технология с зарядкой за 3 минуты

Acer представила бюджетный 8-дюймовый планшет A210 с Android 14 и ценой от $80

К чему приведет резкий отказ от кофе - ответ экспертов

Фразы, которые выдают манипулятора, назвали психологи

Почему по ночам хочется есть и как это исправить

Какие вопросы нельзя задавать на первом свидании

Какие продукты и напитки провоцируют развитие рака - ответ онколога

Экс-работник Google заработал $1,2 млн на ставках, пользуясь внутренними данными компании

Sony раскрыла цены и даты релиза новых аксессуаров PlayStation — 27” игрового монитора, контроллера для файтингов и беспроводных колонок

Почему после 35 лет человек начинает быстрее уставать - ответ ученых

Как хостинг-провайдеру создать единую ИТ-среду и автоматизировать предоставление услуг

Эксплуатацию МКС продлят до 2030 года

Субфлагманы Huawei вышли на новый уровень — представлен nova 16 Ultra с двойным блоком камер, 200 Мп основным сенсором и огромной батареей

Huawei Router X1 Pro Gaming Edition: Wi-Fi 7+ и одиннадцать антенн для тех, кто не терпит лагов

Отличная новость, Милорды: на этой неделе будет представлена совершенно новая игра серии Stronghold

ТОП-10 признаков человека, от которого стоит держаться подальше

Как сделать кровать комфортной для сна летом - ответ экспертов

Для борьбы с изменениями в коде от ИИ-систем предложено предоставлять запись сеанса разработки

Сотрудница отеля предупредила об ошибке, способной испортить отдых

Как ваша группа крови влияет на риск инсульта

Какие продукты лучше употреблять, чтобы снизить давление - кардиологи

Людей стало слишком много - ученые предупредили об угрозе

MSI представила игровой ПК с ИИ-ассистентом, встроенным прямо в корпус

IBM и Red Hat представили проект Lightwell для повышения безопасности открытого ПО

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA