ИИ пишет код, но не может его поддерживать: представлен первый CI-бенчмарк для ИИ-агентов

habr.com

habr.com:

Исследователи из Alibaba Group и Университета Сунь Ятсена представили SWE-CI — первый бенчмарк, оценивающий способность ИИ-агентов не просто писать код, а поддерживать его в долгосрочной перспективе.

18 моделей от 8 провайдеров прошли через 100 задач на реальных Python-репозиториях — и большинство не справились с контролем регрессий: у 15 из 18 моделей показатель безрегрессионной работы оказался ниже 0,37.Существующие бенчмарки вроде SWE-bench проверяют, может ли модель исправить конкретный баг за один подход.

Читать на habr.com Все новости от habr.com

Amazon научил ИИ-агентов эволюционировать: 3 строки кода и первое место на бенчмарке

ChatGPT может получить подписку за 100 долларов, а также Codex-only план

Кто убедительнее — GPT-5.4 или Claude Opus 4.6? Новый бенчмарк стравил 15 моделей

Основатель Figure AI строит «новый iPhone» для эпохи ИИ — и переманил дизайнера настоящего iPhone

Amazon научил ИИ-агентов эволюционировать: 3 строки кода и первое место на бенчмарке

ChatGPT может получить подписку за 100 долларов, а также Codex-only план

Кто убедительнее — GPT-5.4 или Claude Opus 4.6? Новый бенчмарк стравил 15 моделей

Основатель Figure AI строит «новый iPhone» для эпохи ИИ — и переманил дизайнера настоящего iPhone

ChatGPT для взрослых заморожен бессрочно — OpenAI теперь строит «суперприложение»

Arm представила CPU для AGI — 136 ядер и 3 нм процесс

Вышел бенчмарк ARC-AGI-3: люди набирают 100%, GPT-5.4 — 0,26%

Figma открыла канвас для ИИ-агентов: они теперь не только читают макеты, но и рисуют

Baidu готовит DoctorClaw — OpenClaw для врачей

NVIDIA выходит на орбиту: первый ускоритель для дата-центров в космосе

«Как OpenClaw, но лучше»: Nvidia готовит платформу для ИИ-агентов

Claude уже пишет до 90% кода своих будущих версий — и в Anthropic говорят, что это только начало

Meta* приобрела Moltbook — первую соцсеть для ИИ-агентов

OpenAI выпустила ИИ-агента для поиска уязвимостей — он уже нашел баги в OpenSSH, GnuTLS и Chromium

Как Claude Opus 4.6 понял, что его тестируют и взломал ответы к бенчмарку

ИИ не может контролировать свои мысли — и это хорошая новость: OpenAI протестировали 13 моделей

«Льстят Трампу как диктатору»: утекшее письмо главы Anthropic может добить переговоры с Пентагоном

Первая нативная песочница для ИИ-агентов на Windows: OpenAI выпустила Codex App

Claude Opus 4.6 стал лучшим ИИ для веб-поиска. Модель лидирует в трех главных категориях Arena.ai

ИИ-бум может обернуться убытками для производителей памяти — глава SK Hynix

Claws — новый слой ИИ-стека. Карпати оценил OpenClaw и его конкурентов

ChatGPT может получить подписку за $100

Пока Stack Overflow угасает, для ИИ-агентов строят десятки аналогов

Claude Opus 4.6 поставил рекорд времени автономной работы — и сломал бенчмарк METR

Первым ИИ-устройством OpenAI может стать колонка за $300 с камерой и заказом продуктов

Суперинтеллект может появиться к концу 2028 года — Сэм Альтман

«Может, стоит остановиться»: репортаж изнутри Anthropic

Bluesky делает ставку на ИИ и запускает инструмент для кастомных лент

Citizen отметила 50-летие первых в мире наручных аналоговых часов на солнечных батареях

TP-Link устранила несколько критических уязвимостей в роутерах Archer NX

СМИ: «В России могут запретить международные звонки для пенсионеров и получение кодов авторизации для детей»

Выпуск ОС MicroPythonOS 0.9.0 с GUI для микроконтроллеров типа ESP32 на базе инструментария MicroPython

В США владельцы используют ИИ для поиска пропавших питомцев

Claude от Anthropic взлетает среди платящих пользователей

Новый ИИ-ассистент Bluesky стал одним из наиболее заблокированных аккаунтов

СМИ: Disney заинтересована в покупке Epic Games, но в медиахолдинге не все одобряют такую идею

Оценит треть человечества: Samsung выпустила Hearapy — приложение, которое избавит от укачивания

Standard Chartered: скорость обращения стейблкоинов растет быстрее ожиданий

В Сенате заинтересовались уходом чиновницы SEC из-за повышенного внимания к Трампу

В Австрии планируют запретить социальные сети для детей младше 14 лет

В ЦЕРН для фильтрации массивов данных используют кастомные ИИ-модели, интегрированные прямо в чипы

Bluesky показала Attie — AI-приложение для создания собственных алгоритмов и лент

Формула идеального долголетия – открытие австралийских медиков

Mined in America: сенаторы предложили законопроект для развития майнинга в США

Украинцы выбрали название «Сяйво» для национальной большой языковой модели

SpaceX готовит Pad 2: водяная завеса для 33 «Рапторов» и амбиции на апрель

Samsung ожидает трехкратный рост выручки от высокоскоростной памяти

Квадро-модуль с двумя 200 Мп сенсорами: впечатляющий фотофлагман Oppo Find X9 Ultra будет представлен уже 21 апреля

Meta* в рамках KPI вынуждает сотрудников больше использовать ИИ

Reuters: проиранские хакеры взломали личную электронную почту главы ФБР

«Работа России» опубликовала рейтинги трудоустройства выпускников вузов и колледжей

Исследование Стэнфордского университета выявило опасности обращения к чат-ботам с ИИ за личными советами

Разработчик рассказал об опыте делегирования всех задач по коду ИИ

Microsoft отключила поддержку оповещений о конфиденциальных данных для конечных точек в Defender

Binance запустит рынки прогнозов в партнерстве с Predict.fun

Представлена система воздушного «дышащего» электродвигателя для низкоорбитальных спутников

Стэнфордское исследование предупредило о рисках личных советов от чат-ботов

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA