38% ускорения: ИИ-агенты Cursor оптимизировали CUDA-ядра NVIDIA
Cursor и NVIDIA рассказали о совместном эксперименте: мультиагентная система за три недели автономно оптимизировала 235 CUDA-ядер под архитектуру Blackwell B200 и в среднем ускорила их на 38% относительно базовой линии.
Это не привычная для Cursor задача из IDE, а низкоуровневая работа с GPU-кодом, на которую у kernel-инженеров обычно уходят месяцы и годы.Быстрые ядра матричного умножения (GEMM) приходится писать на встроенном PTX — фактически ассемблере NVIDIA — с ручной конвейеризацией и поэтапной подачей данных через несколько уровней памяти.
habr.com