Передовые ИИ закрывают меньше четверти задач в программировании — исследование

habr.com

habr.com:

Компания Scale AI представила бенчмарк SWE-BENCH PRO — он основан на популярном тест SWE-BENCH, но заточен для проверки возможностей ИИ-агентов в условиях, приближенных к реальной разработке.

В бенчмарк вошли 1 865 задач из 41 репозитория в трех категориях: открытая (731 задача) из проектов со строгими лицензиями (например, GPL), коммерческая (276 задач) из закрытых кодовых баз стартапов и закрытый поднабор (858 задач), зарезервированный для защиты от "подглядывания" в обучении.

Читать на habr.com Все новости от habr.com

Кит в течение пяти месяцев не закрывает убыточную шорт-позицию несмотря на возможность «выйти в плюс»

Сок этой популярной ягоды стимулирует работу мозга. Поможет в решении задач?

Исследование показало, что 36% вайб-кодеров вообще не тестируют свои проекты

Неожиданный эффект от законов Трампа — Texas Instruments сокращает 400 сотрудников и закрывает завод в Техасе

Кит в течение пяти месяцев не закрывает убыточную шорт-позицию несмотря на возможность «выйти в плюс»

Сок этой популярной ягоды стимулирует работу мозга. Поможет в решении задач?

Исследование показало, что 36% вайб-кодеров вообще не тестируют свои проекты

Неожиданный эффект от законов Трампа — Texas Instruments сокращает 400 сотрудников и закрывает завод в Техасе

Представлен Claude Sonnet 4.5: новый лидер в задачах программирования

YouTube Labs запустит «передовые эксперименты с ИИ»

Создание ИИ-видео расходует больше электричества, чем ожидалось — исследование Hugging Face

OpenAI измерила влияние ИИ на экономику с помощью 1320 реальных задач

Смертность от рака в мире вырастет почти на 75% в течение следующих 25 лет - исследование

ИИ для программирования Qwen3-Coder получил обновление

Какую температуру может пережить организм человека - исследование

ИИ для программирования GPT-5-Codex вышел в API

Консоли Xbox за последние годы превратились в платформу цифровой дистрибуции, всё меньше игр Xbox выходит на дисках

Google интегрирует чат-бот Gemini в Chrome для выполнения «рутинных задач» от имени пользователя

Контекстное окно в 1M токенов. Новый Grok для программирования выйдет на следующей неделе

Только GPT-5 решила все задачи чемпионата мира по программированию

ИИ OpenAI набрал 12/12 на Олимпиаде по программированию. Официальные чемпионы — команда СПбГУ

Amazon обновила ИИ-агента для помощи продавцам и автоматизации бизнес-задач

На панели задач Windows 11 появится кнопка проверки скорости интернета

GPT-5 показал рекорд в многошаговых задачах. Это поможет при создании агентов

Windows 11 получит встроенную функцию проверки скорости интернета прямо из панели задач

Кейс AirPods Pro 3 имеет батарейку меньшей емкости

Персонализированное приложение-компаньон Dot на базе ИИ закрывается

Курчатовский институт выиграл грант на разработку аналоговых нейроморфных сенсоров и систем для решения задач ИИ

Будущее памяти: больше данных в меньшем пространстве благодаря новым молекулярным переключателям

Nokia открыла передовой центр исследований, разработок и производства

Samsung представила Galaxy S25 FE — недорогой флагманский смартфон с топовыми характеристиками и самыми передовыми ИИ-возможностями

При приеме каких витаминов врачи запрещают пить кофе

Что чувствуют люди в коме: бывшие пациенты поделились пугающими впечатлениями

Как поза человека во время стояния может раскрыть его характер — исследование

Первый спотовый Solana-ETF выйдет на рынок Гонконга 27 октября

Ученые создали глазной имплант с ИИ, который позволяет слепым снова начать читать

Глобальный сбой: пользователи интернета сообщают о проблемах в работе сервисов

В Германии запустили суперкомпьютер, который выполняет квантиллион операций в секунду

Житель Тернополя потерял более $28 000 из-за фейковых инвестиций

Количество пользователей стейблкоина USDT превысило 500 млн

Amazon автоматизирует 75% операций и готовит «роботизированные склады будущего»

Андрей Карпати рассказал, как строит элитную ИИ-школу

Гитара будущего LiberLive C1 научит играть за 5 минут

JEDEC разработала стандарт оперативной памяти SOCAMM2: LPDDR5X с 9,6 Гбит/с на контакт

Грандиозное увольнение: Amazon хочет заменить 600 000 человек роботами

Kohler представила видеокамеру-насадку Dekoda для туалетного узла

OpenAI не планирует релиз GPT-6 в этом году

ТОП-9 полезных продуктов, которые закупоривают ваш артерии

Известный шеф-повар рассказал, в какой день недели не стоит заказывать рыбу в ресторанах

Главный миф о браке и свадьбе, в который верят большинство людей, развенчали ученые

Релиз стильного шутера Mouse: P.I. For Hire перенесен на 2026 год

Casio представила самые миниатюрные часы в истории G-Shock — модель Nano DWN-5600 в виде кольца

Apple разрабатывает складной планшет, но его ориентировочная цена достигает $4000

Безопасность без слепых зон: новая ИИ-камера Baseus X1 Pro

Бельгия предложила систему онлайн регистрации дронов для защиты Европы

Когда выйдет новый MacBook Air: детали и характеристики

Модератор Reddit предупредил об опасности ИИ-ответов на сабреддите по здоровью

Samsung покоряет смешанную реальность — представлена гарнитура Galaxy XR, которая стала первым устройством на Android XR

Как чай влияет на организм и какой напиток самый полезный, рассказал эксперт

Uber даст водителям возможность заработать на выполнении мелких задач для обучения ИИ

Сенатор Уоррен раскритиковала закон о стейблкоинах GENIUS

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA