dilnaz04 США общество семья самит доллар крипто токен dilnaz04 США

Рост популярности моделей рассуждений AI делает бенчмаркинг более дорогим

Лаборатории AI, такие как OpenAI, утверждают, что их так называемые «рассуждающие» модели AI, которые могут «думать» о проблемах шаг за шагом, более способны, чем их нерассуждающие аналоги в определенных областях, таких как физика.

Но хотя это, как правило, так и есть, модели рассуждений также намного дороже для бенчмаркинга, что затрудняет независимую проверку этих заявлений.По данным Artificial Analysis, стороннего тестировщика искусственного интеллекта, оценка модели рассуждений OpenAI o1 с использованием набора из семи популярных тестов искусственного интеллекта: MMLU-Pro, GPQA Diamond, Humanity's Last Exam, LiveCodeBench, SciCode, AIME 2024 и MATH-500 стоит 2767,05 долларов США.Сравнительный анализ недавней модели рассуждений Claude 3.7 Sonnet от Anthropic на том же наборе тестов обошелся в $1485,35, тогда как тестирование o3-mini-high от OpenAI обошлось в $344,59, согласно данным Artificial Analysis.Некоторые модели рассуждений дешевле для бенчмаркинга, чем другие.

DMCA