Хватит тестировать в лаборатории: Inclusion Arena показывает, как LLM работают в реальности

habr.com:

Бенчмарки стали неотъемлемым инструментом для компаний: они позволяют понять, какие модели лучше соответствуют их задачам. Но далеко не все тесты одинаково полезны — многие из них строятся на статичных датасетах и искусственных условиях.Исследователи из Inclusion AI, связанной с Ant Group корпорации Alibaba, предложили новый формат рейтинга и тестирования моделей.

Он делает акцент на том, как языковые модели ведут себя в реальных сценариях, и оценивает не только их знания, но и то, насколько пользователям нравятся их ответы.В своей работе учёные описали платформу Inclusion Arena — живой лидерборд, который ранжирует модели по предпочтениям пользователей.«Чтобы закрыть пробелы, мы предлагаем Inclusion Arena — живой рейтинг, который соединяет реальные AI‑приложения с передовыми LLM и MLLM.

Читать на habr.com Все новости от habr.com

ИИ Claude уже месяц работает хуже обычного. Anthropic принимает меры

Глава «Сбера» объяснил, как улучшить работу искусственного интеллекта

«Вдохновлялись Duolingo». Как EdTech-компании работают с государством, помогают студентам и тестируют ИИ-преподавателей. Опыт GoIT и Buki на Forbes University

«Вузы планируют на годы, бизнес – на квартал». Как компаниям работать с университетами и наоборот? Формулы успеха КШЭ, УКУ, Ajax Systems и Genesis

ИИ Claude уже месяц работает хуже обычного. Anthropic принимает меры

Глава «Сбера» объяснил, как улучшить работу искусственного интеллекта

Дія первой в мире ввела искусственный интеллект в сфере предоставления государственных услуг - как это работает

Деньги не главное. В xAI из Meta✶ перешли как минимум 14 специалистов по ИИ

Хватит вручную запускать скрипты на десятках серверов — автоматизируйте

Nvidia GB300: 288 ГБ, PCIe 6, 1400 Вт — тот случай, когда «ещё больше всего» действительно работает

В ChatGPT добавили раздельную память и квизы. Вот как их включить