runawayllm история интересное runawayllm

ИИ пишет код, но не может его поддерживать: представлен первый CI-бенчмарк для ИИ-агентов

Исследователи из Alibaba Group и Университета Сунь Ятсена представили SWE-CI — первый бенчмарк, оценивающий способность ИИ-агентов не просто писать код, а поддерживать его в долгосрочной перспективе.

18 моделей от 8 провайдеров прошли через 100 задач на реальных Python-репозиториях — и большинство не справились с контролем регрессий: у 15 из 18 моделей показатель безрегрессионной работы оказался ниже 0,37.Существующие бенчмарки вроде SWE-bench проверяют, может ли модель исправить конкретный баг за один подход.

DMCA