Рост популярности моделей рассуждений AI делает бенчмаркинг более дорогим

habr.com:

Лаборатории AI, такие как OpenAI, утверждают, что их так называемые «рассуждающие» модели AI, которые могут «думать» о проблемах шаг за шагом, более способны, чем их нерассуждающие аналоги в определенных областях, таких как физика.

Но хотя это, как правило, так и есть, модели рассуждений также намного дороже для бенчмаркинга, что затрудняет независимую проверку этих заявлений.По данным Artificial Analysis, стороннего тестировщика искусственного интеллекта, оценка модели рассуждений OpenAI o1 с использованием набора из семи популярных тестов искусственного интеллекта: MMLU-Pro, GPQA Diamond, Humanity's Last Exam, LiveCodeBench, SciCode, AIME 2024 и MATH-500 стоит 2767,05 долларов США.Сравнительный анализ недавней модели рассуждений Claude 3.7 Sonnet от Anthropic на том же наборе тестов обошелся в $1485,35, тогда как тестирование o3-mini-high от OpenAI обошлось в $344,59, согласно данным Artificial Analysis.Некоторые модели рассуждений дешевле для бенчмаркинга, чем другие.

Читать на habr.com Все новости от habr.com

Какие продукты делают вас более нервными - их нельзя есть при стрессе

В Bitwise спрогнозировали рост биткоина до $1 млн благодаря ETF и спросу со стороны правительств

В Минфине США спрогнозировали рост капитализации стейблкоинов до $2 трлн к 2028 году

Alibaba представляет Qwen3, семейство «гибридных» моделей рассуждений AI

Какие продукты делают вас более нервными - их нельзя есть при стрессе

В Bitwise спрогнозировали рост биткоина до $1 млн благодаря ETF и спросу со стороны правительств

В Минфине США спрогнозировали рост капитализации стейблкоинов до $2 трлн к 2028 году

Alibaba представляет Qwen3, семейство «гибридных» моделей рассуждений AI

Компания Mphasis отмечает рост популярности бизнеса, основанного на искусственном интеллекте

Alphabet отчиталась о результатах первого квартала 2025 года: рост доходов и инвестиции в ИИ

Flex приобретает Maza, поддерживаемую a16z, за $40 млн на фоне роста популярности слияний и поглощений в финтех-сфере