Code Arena: живой бенчмарк для ИИ-разработчиков вместо статических тестов
Code Arena — новый бенчмарк для ИИ, который пишет код как агент-разработчик: не один файл, а полноценные веб-приложения с итерациями, правками и деплоем в живом окружении.Модели работают в изолированных сэндбоксах через структурированные tool calls (create_file, edit_file, read_file, run_command), всё логируется: промпты, изменения, рендер, снапшоты проекта.
Сессии можно восстанавливать и шарить по ссылке.Оценка строится не только на «прошёл тесты / не прошёл», а по трём осям: функциональность, удобство и соответствие задумке.
habr.com