OpenAI тихо профинансировала независимый математический бенчмарк перед установлением рекорда с o3
Участие OpenAI в финансировании FrontierMath, ведущего AI-бенчмарка по математике, стало известно только тогда, когда компания объявила о рекордных показателях на этом тесте.
Теперь разработчик бенчмарка, Epoch AI, признает, что следовало быть более прозрачными относительно их отношений.FrontierMath, представленный в ноябре 2024 года, тестирует, насколько хорошо AI-системы могут справляться со сложными математическими задачами, требующими продвинутого рассуждения и навыков решения проблем — именно такие задачи обычно ставят в тупик даже самые продвинутые AI-системы.
habr.com