OpenAI измерила влияние ИИ на экономику с помощью 1320 реальных задач
OpenAI представила GDPval — бенчмарк для оценки влияния ИИ на реальную экономику. В отличие от привычных тестов вроде MMLU, где модели отвечают на короткие вопросы, здесь проверяются полноценные рабочие задачи из ключевых отраслей, формирующих ВВП.
Идея проста: замерять не абстрактные баллы, а то, насколько ИИ реально справляется с работой, за которую платят деньги.Бенчмарк состоит из 1 320 заданий, охватывающих 44 профессии в 9 отраслях, которые дают более 5% вклада в ВВП США — от юриспруденции и финансов до инженерии и здравоохранения.
habr.com