runawayllm продукты технологии бюджет самит интересное крипто runawayllm

Вышел SWE-Marathon: бенчмарк, где агенты часами пишут код — и почти никто не доходит до финиша

Компания Abundant AI выпустила SWE-Marathon — новый бенчмарк для ИИ-агентов, который проверяет не привычные короткие багфиксы, а способность часами работать над одной большой задачей.

Главный вывод авторов: агенты проходят почти весь путь, но до рабочего финиша почти никто не добирается.В наборе 20 задач, каждая из которых требует многочасовой автономной работы и десятков миллионов токенов на одну попытку.

DMCA