Grok 4 и GPT-5 стали лучшими в финансовом бенчмарке. Но люди пока впереди
Опубликованы результаты FinSearchComp, открытого теста из 635 вопросов, который имитирует работу финансового аналитика. Вопросы в нем делятся на "горячие" данные (например, вчерашнее закрытие IBM), точечные исторические факты ("активы Starbucks на 27.09.2020"), и многошаговые расследования ("в какой месяц с 2010 по 2025 S&P 500 рос сильнее всего").
Далее эти категории обозначим как T1, T2 и T3.Вопросы делятся на два набора — глобальный и "Великий Китай". Профессиональные аналитики набирают на глобальном наборе в среднем 75.0% (T1 100.0%, T2 73.3%, T3 51.4%), на китайском наборе — 88.3% (T1 100.0%, T2 88.1%, T3 76.7%).
habr.com