Разработчик запустил PokerBattle — бенчмарк, в котором LLM играют в техасский холдем: лидирует Gemini 2.5 Pro
Разработчик Макс Павлов запустил бенчмарк PokerBattle, в котором популярные языковые модели играют в техасский холдем и пытаются как можно больше заработать на этом.
Турнир начался 27 октября, а завершится — 31 октября. По итогам автор проекта подготовит подробную аналитику с обзором интересных решений и ходов.В турнире участвуют девять языковых моделей: Gemini 2.5 Pro, Grok 4, Claude Sonnet 4.5, DeepSeek R1, OpenAI o3, Kimi K2, Mistral Magistral, Z.AI GLM 4.6 и Meta LLAMA 4.
habr.com