Бенчмарк Vals.ai: даже продвинутые AI-агенты ненадежны в финансовом анализе
Несмотря на доступ к исследовательским инструментам и высокие затраты на обработку, ведущие языковые модели не справляются со сложными финансовыми задачами.Новый бенчмарк от Vals.ai показывает, что даже самые продвинутые автономные агенты AI остаются ненадежными для финансового анализа.
Самая производительная модель, o3 от OpenAI, достигла точности всего 48,3% — при средней стоимости запроса $3,69.Тест был разработан совместно со Стэнфордской лабораторией и глобальным системно значимым банком.
habr.com