Вышел SWE-Marathon: бенчмарк, где агенты часами пишут код — и почти никто не доходит до финиша
Компания Abundant AI выпустила SWE-Marathon — новый бенчмарк для ИИ-агентов, который проверяет не привычные короткие багфиксы, а способность часами работать над одной большой задачей.
Главный вывод авторов: агенты проходят почти весь путь, но до рабочего финиша почти никто не добирается.В наборе 20 задач, каждая из которых требует многочасовой автономной работы и десятков миллионов токенов на одну попытку.
habr.com