AI выигрывает 40% от бюджета в миллион долларов в последнем тесте кодирования OpenAI
Новый бенчмарк от OpenAI раскрывает как перспективы, так и ограничения AI в разработке ПО. Хотя модели AI могут справиться со многими задачами программирования, они все еще испытывают трудности со сложными программными проектами, требующими глубокого понимания и комплексных решений.
Тест SWE-Lancer от OpenAI проверил возможности моделей AI с использованием 1400 реальных заданий от Upwork, что составляет $1 млн.
habr.com