Языковые модели ИИ тестируют на способность рассуждать в игре «Phoenix Wright: Ace Attorney»
Исследователи подвергли ведущие модели ИИ новому виду тестирования, которое показывает, насколько хорошо они могут рассуждать, чтобы одержать победу в суде.
Результаты выявили некоторые явные различия как в производительности, так и в стоимости.Команда из лаборатории искусственного интеллекта Hao в Калифорнийском университете в Сан-Диего оценила современные языковые модели с помощью игры «Phoenix Wright: Ace Attorney», в которой игрокам нужно собирать улики, выявлять противоречия и раскрывать правду, скрывающуюся за ложью.По мнению Hao AI Lab, игра Ace Attorney особенно хорошо подходит для этого теста, потому что она требует от игроков собирать доказательства, выявлять противоречия и находить правду за ложью.
habr.com