dmitrifriend люди общество самит интересное google dmitrifriend

Хватит тестировать в лаборатории: Inclusion Arena показывает, как LLM работают в реальности

Бенчмарки стали неотъемлемым инструментом для компаний: они позволяют понять, какие модели лучше соответствуют их задачам. Но далеко не все тесты одинаково полезны — многие из них строятся на статичных датасетах и искусственных условиях.Исследователи из Inclusion AI, связанной с Ant Group корпорации Alibaba, предложили новый формат рейтинга и тестирования моделей.

Он делает акцент на том, как языковые модели ведут себя в реальных сценариях, и оценивает не только их знания, но и то, насколько пользователям нравятся их ответы.В своей работе учёные описали платформу Inclusion Arena — живой лидерборд, который ранжирует модели по предпочтениям пользователей.«Чтобы закрыть пробелы, мы предлагаем Inclusion Arena — живой рейтинг, который соединяет реальные AI‑приложения с передовыми LLM и MLLM.

DMCA