AI не справляется с высокоуровневыми историческими экзаменами: исследование показало лишь 46% точности

habr.com:

AI может превосходно справляться с определёнными задачами, такими как программирование или создание подкастов. Однако ему сложно сдать экзамен по истории на высоком уровне, как показало новое исследование.Команда исследователей разработала новый бенчмарк для проверки трёх ведущих моделей LLM — GPT-4 от OpenAI, Llama от Meta и Gemini от Google — на исторических вопросах. Этот бенчмарк, названный Hist-LLM, оценивает правильность ответов в соответствии с Seshat Global History Databank, обширной базой данных исторических знаний, названной в честь древнеегипетской богини мудрости.Результаты, представленные в прошлом месяце на престижной конференции по AI NeurIPS, оказались разочаровывающими, согласно исследователям, связанным с Complexity Science Hub (CSH), исследовательским институтом в Австрии.

Лучшая из моделей, GPT-4 Turbo, достигла только около 46% точности — это немного выше случайного угадывания.«Основной вывод этого исследования заключается в том, что большие языковые модели, хотя и впечатляющие, всё ещё не обладают глубиной понимания, необходимой для продвинутого изучения истории.

Читать на habr.com Все новости от habr.com

Официально: Grand Theft Auto 6 изначально выйдет лишь на консолях, но порт на ПК также в планах

BI.ZONE представила исследование российского ландшафта угроз за 2024 год Threat Zone 2025

Большинство мужчин готовы завести отношения с кибер-подругой вместо реальной женщины – исследование

Исследование IIHS показало, что крупные автомобили не являются более безопасными во время аварий

Официально: Grand Theft Auto 6 изначально выйдет лишь на консолях, но порт на ПК также в планах

BI.ZONE представила исследование российского ландшафта угроз за 2024 год Threat Zone 2025

Большинство мужчин готовы завести отношения с кибер-подругой вместо реальной женщины – исследование

Исследование: переработка батарей лучше, чем добыча первичных материалов, поскольку это сокращает выбросы на 81%

Исследование: почти каждый десятый человек использует один и тот же четырёхзначный PIN-код

Исследование: подростки в США утратили доверие к крупным технологическим компаниям

Будущее ИТ-рынка: исследование МТС