Новый тест HLE выявил слабые места AI: 90% задач остаются нерешенными
Международная исследовательская группа разработала новый бенчмарк, который выявляет текущие ограничения LLM. Даже самые продвинутые модели не справляются с 90 процентами задач — на данный момент.Тест под названием «Последний экзамен человечества» (HLE) включает 3000 вопросов по более чем 100 специализированным областям, 42 процента из которых посвящены математике.
В его разработке приняли участие около 1000 экспертов из 500 учреждений в 50 странах.Исследователи начали с 70 000 вопросов и представили их ведущим моделям AI.
habr.com