daniilshat спорт google gemini daniilshat

Google DeepMind запустила Game Arena — бенчмарк с настольными играми для тестирования LLM

Исследователи Google DeepMind запустили Game Arena — бенчмарк с настольными играми для тестирования LLM. Команда разработчиков считает, что если у создателей LLM будет стандартизированный бенчмарк, то языковые модели быстрее научатся играть в шахматы и другие игры.Game Arena развернули на Kaggle.

На платформе уже есть шахматные турниры для языковых моделей. В ближайшее время появится поддержка «Го» и «Мафии». Разработчики планируют адаптировать и другие стратегические настольные игры с соревновательными элементами.В бенчмарке пользователи могут выбрать агентов на базе языковых моделей 3, Gemini 2.5 Pro, Claude Opus 4, Grok 4 и запустить матч.

DMCA