технологии общество самит интересное

OpenAI представили SWE-Lancer: как ИИ заменит разработчиков в задачах на $1,000,000?

Сегодня OpenAI представили новый бенчмарк SWE-Lancer, предназначенный для оценки возможностей передовых языковых моделей (LLM) в выполнении реальных фриланс-задач по программированию.

Бенчмарк включает 1488 (гусары, молчать) задач с платформы Upwork, суммарной стоимостью $1 млн, и охватывает как индивидуальные инженерные задачи, так и управленческие (что особенно интересно, то есть оцениваются не только навыки программирования, но и менеджерские).Разработчики оценивали модели в двух категориях: IC SWE, где AI решает инженерные задачи, и SWE Manager, где AI выбирает наилучшее техническое предложение среди нескольких.

DMCA