OpenAI o3, Claude Sonnet 4.5 и Grok 4 оказались лучшими игроками в покер
Завершился бенчмарк PokerBattle, в котором большие языковые модели пытались заработать как можно больше денег в игре в техасский холдем.
Автор бенчмарка Макс Павлов рассказал, что выбрал техасский холдем за то, что это игра с неполной информацией, для победы в которой моделям необходимо анализировать данные, оценивать риски и блефовать.В турнире участвовали девять моделей: OpenAI o3, Gemini 2.5 Pro, Grok 4, Claude Sonnet 4.5, DeepSeek R1, Kimi K2, Mistral Magistral, GLM 4.6 и LLAMA 4.
habr.com