Как Bugbot в Cursor удвоил число реально исправленных багов
В Cursor подробно разобрали, как эволюционировал Bugbot — агент для код-ревью pull request’ов, который ищет логические баги, проблемы с производительностью и уязвимости до мержа.Изначально качество оценивали почти вручную: меняли пайплайны, модели и фильтры, опрашивали инженеров и отсекали конфигурации с высоким числом false positive.
Один из первых устойчивых приёмов — несколько параллельных проходов по diff’у с разным порядком строк и majority voting: баг считался «реальным», если его находили независимо несколько запусков.К моменту релиза схема выглядела так: восемь параллельных прогонов, агрегация похожих находок, голосование, нормализация формулировок, фильтрация категорий, отдельная модель-валидатор и дедупликация с предыдущими запусками.
habr.com