dilnaz04 связь экономика самит финансирование dilnaz04

OpenAI тихо профинансировала независимый математический бенчмарк перед установлением рекорда с o3

Участие OpenAI в финансировании FrontierMath, ведущего AI-бенчмарка по математике, стало известно только тогда, когда компания объявила о рекордных показателях на этом тесте.

Теперь разработчик бенчмарка, Epoch AI, признает, что следовало быть более прозрачными относительно их отношений.FrontierMath, представленный в ноябре 2024 года, тестирует, насколько хорошо AI-системы могут справляться со сложными математическими задачами, требующими продвинутого рассуждения и навыков решения проблем — именно такие задачи обычно ставят в тупик даже самые продвинутые AI-системы.

DMCA