runawayllm самит стартап runawayllm

Передовые ИИ закрывают меньше четверти задач в программировании — исследование

Компания Scale AI представила бенчмарк SWE-BENCH PRO — он основан на популярном тест SWE-BENCH, но заточен для проверки возможностей ИИ-агентов в условиях, приближенных к реальной разработке.

В бенчмарк вошли 1 865 задач из 41 репозитория в трех категориях: открытая (731 задача) из проектов со строгими лицензиями (например, GPL), коммерческая (276 задач) из закрытых кодовых баз стартапов и закрытый поднабор (858 задач), зарезервированный для защиты от "подглядывания" в обучении.

DMCA