Языковые модели ИИ тестируют на способность рассуждать в игре «Phoenix Wright: Ace Attorney»

habr.com

habr.com:

Исследователи подвергли ведущие модели ИИ новому виду тестирования, которое показывает, насколько хорошо они могут рассуждать, чтобы одержать победу в суде.

Результаты выявили некоторые явные различия как в производительности, так и в стоимости.Команда из лаборатории искусственного интеллекта Hao в Калифорнийском университете в Сан-Диего оценила современные языковые модели с помощью игры «Phoenix Wright: Ace Attorney», в которой игрокам нужно собирать улики, выявлять противоречия и раскрывать правду, скрывающуюся за ложью.По мнению Hao AI Lab, игра Ace Attorney особенно хорошо подходит для этого теста, потому что она требует от игроков собирать доказательства, выявлять противоречия и находить правду за ложью.

Читать на habr.com Все новости от habr.com

Против кого дружим? Модели ИИ способны объединяться в группы и согласовывать общее мнение

Toyota переименовала электрический кроссовер bZ4X для Америки, добавила запас хода и обновила дизайн для модели 2026 года

NextSpace TestRig: первый в мире 3D-принтер для печати в открытом космосе

Casio выпустила четыре новые гибридные модели часов G-Shock

Против кого дружим? Модели ИИ способны объединяться в группы и согласовывать общее мнение

Toyota переименовала электрический кроссовер bZ4X для Америки, добавила запас хода и обновила дизайн для модели 2026 года

NextSpace TestRig: первый в мире 3D-принтер для печати в открытом космосе

Casio выпустила четыре новые гибридные модели часов G-Shock

Xiaomi представила две модели QLED-телевизоров FX Pro 2025 с 4K разрешением и доступной ценой

Новая небольшая модель искусственного интеллекта Ai2 превосходит аналогичные по размеру модели от Google и Meta*

Microsoft выпустила Phi-4 — семейство компактных рассуждающих языковых моделей с открытым исходным кодом

JetBrains открыла код Mellum — компактной языковой модели для завершения кода

Xiaomi выпустила MiMo — открытую языковую модель с функцией рассуждения

Космолама: Meta* и Booz Allen Hamilton запустили языковую модель Llama на МКС

Новые языковые модели от OpenAI оставляют скрытые водяные знаки в сгенерированном тексте

Состоялся релиз SkyReels V2 — открытой модели для генерации видео по текстовому описанию

Утечка: HMD готовит новые модели Skyline и Fusion 2

Tesla откладывает запуск новой модели на несколько месяцев

Исследователи представили бенчмарк, в котором языковые модели проходят классические игры

BitNet- новая энергоэффективная языковая модель Microsoft

Новые модели рассуждений AI от OpenAI галлюцинируют больше

Google выпустил предварительную версию улучшенной модели ИИ Gemini 2.5 Flash

Tesla снова откладывает дебют доступной модели — Reuters

Новейшие модели искусственного интеллекта OpenAI имеют новую защиту от биорисков

OpenAI запускает две модели рассуждений AI: o3 и o4-mini

Weekly: обвал токена OM, новые модели OpenAI, эксперимент Base и игра Трампа

Когда исчезнут люди: научные модели предсказали превращение Земли в "смертельную печь"

OpenAI выпустила новые рекордные модели o3 и o4-mini

OpenAI тестирует водяные знаки для модели генерации изображений ChatGPT-4o

Институт Аллена запускает OLMoTrace: инструмент для отслеживания источников ответов языковых моделей в обучающих данных

Большая языковая модель «Авито» обогнала OpenAI и Google в бенчмарке MERA

Tinder начал проверять профили новых пользователей в Калифорнии с помощью технологии распознавания лиц

Samsung Galaxy S26 Ultra получит аккумулятор прежней емкости, но с большей плотностью

ТОП-8 тревожных сигналов, что новый партнер вас просто использует, назвал психолог

Redmi Note 14 Pro и Pro+ теперь доступны в элегантном цвете Champagne Gold

Новый Alpine A290 Rallye готов раскидывать грязь и гравий за 60 тысяч евро

Шеф-дизайнер Mercedes заявил, что EQS вышел слишком рано и второго поколения не будет

Бензиновый Ford Mustang вновь обогнал электрический Mach-E по продажам в США

Еще одна жертва увольнений в Microsoft: Blizzard завершает контентную поддержку мобильной игры Warcraft Rumble

Представлено умное кольцо Pebble HALO с цифровым дисплеем

Сеанс со списанием: мошенники похищают деньги под предлогом онлайн-просмотра кино

Вещество, останавливающее рост раковых клеток, ученые нашли в популярной специи

Три продукта, которые снижают риск развития деменции, обнаружили ученые

Honda и Sony потеряли $360 миллионов на автомобиле Afeela ещё до старта продаж

Techland возвращается к истокам: авторы Dying Light работают над новой частью Call of Juarez

Блогер показал жизнь, полностью лишенную Google

Instagram** теперь позволяет делиться песнями Spotify со звуком в Stories

Из-за ошибки тысячи жителей Норвегии стали «миллионерами» после «выигрыша» в лотерее

В Сочи сделали парковки для электросамокатов вне тротуара

Завтра Земля будет дальше всего от Солнца: что это значит для нас

Раньше не встречались: ученые открыли три новых минерала

EGS запустил раздачу музыкальной адвенчуры Figment и roguelike-игры Backpack Hero

Motorola выпустила бюджетный смартфон Moto G100 Pro с неплохими характеристиками за разумные деньги

В четыре раза точнее врача. В Microsoft создали «консилиум» из ИИ для постановки диагноза

Релиз Qmmp 2.2.7 — открытого мультимедийного проигрывателя на базе Qt для Windows и Linux

Релиз Cryptsetup 2.8 — набора утилит для настройки шифрования дисковых разделов в Linux

Вышел digiKam 8.7.0

Представлен переносной игровой SSD-накопитель Acer Predator GP30 RGB

Упражнение, которое продлит жизнь на 7 лет, назвала известный тренер

Android 16 появится на смартфонах Nothing не раньше осени: компания не спешит с выпуском новой версии своей оболочки

От стартапа к компании-платформе со 100 млн пользователей. Дмитрий Лола рассказывает о трех спасительных шагах, без которых не было бы Kiss My Apps

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA