Claude Opus 4.5 стал лучшим в бенчмарке на реальные рабочие задачи
Компания Artificial Analysis представила GDPval-AA — собственную реализацию бенчмарка OpenAI на реальных рабочих задачах. Тест охватывает 44 профессии и 9 отраслей: модели создают презентации, заполняют таблицы Excel, пишут документы Word и даже рендерят видео.
Лидером стал Claude Opus 4.5 с результатом 1426 Elo.В топ-5 вошли Claude Opus 4.5, GPT-5 (1311 Elo), Claude Sonnet 4.5 (1291), а DeepSeek V3.2 и Gemini 3 Pro разделили пятое место с 1206 очками.
habr.com