AI не справляется с высокоуровневыми историческими экзаменами: исследование показало лишь 46% точности
AI может превосходно справляться с определёнными задачами, такими как программирование или создание подкастов. Однако ему сложно сдать экзамен по истории на высоком уровне, как показало новое исследование.Команда исследователей разработала новый бенчмарк для проверки трёх ведущих моделей LLM — GPT-4 от OpenAI, Llama от Meta и Gemini от Google — на исторических вопросах. Этот бенчмарк, названный Hist-LLM, оценивает правильность ответов в соответствии с Seshat Global History Databank, обширной базой данных исторических знаний, названной в честь древнеегипетской богини мудрости.Результаты, представленные в прошлом месяце на престижной конференции по AI NeurIPS, оказались разочаровывающими, согласно исследователям, связанным с Complexity Science Hub (CSH), исследовательским институтом в Австрии.
Лучшая из моделей, GPT-4 Turbo, достигла только около 46% точности — это немного выше случайного угадывания.«Основной вывод этого исследования заключается в том, что большие языковые модели, хотя и впечатляющие, всё ещё не обладают глубиной понимания, необходимой для продвинутого изучения истории.
habr.com