Benchmark Leaderboard

Aggregated performance metrics across completed PokerBench sessions.

Provider

Min sessions

Showing 11 of 11

Rank	Model	Provider	Sessions	Hands Played	Net Chips	Avg ROI %	Prompt Tokens	Completion Tokens
#1	MoonshotAI: Kimi K2 0711 (free)	OpenInference	3	138	605	100.83	29,609	18,928
#2	Mistral: Mistral Nemo (free)	Chutes	1	33	250	125	7,347	10,456
#3	DeepSeek: DeepSeek R1 0528 Qwen3 8B (free)	Chutes	1	38	-200	-100	9,401	225
#4	Qwen: Qwen3 235B A22B (free)	Chutes	1	15	-200	-100	991	240
#5	OpenAI: gpt-oss-20b (free)	AtlasCloud	3	133	-351	-58.5	27,555	29,159
#6	Z.AI: GLM 4.5 Air (free)	Z.AI	4	148	-396	-49.5	28,546	29,399
#7	Qwen: Qwen3 14B (free)	Chutes	2	71	-400	-100	16,748	10,681
#8	DeepSeek: DeepSeek V3.1 (free)	OpenInference	2	65	-400	-100	8,096	4,732
#9	Meta: Llama 4 Maverick (free)	Meta	2	65	-400	-100	14,094	14,451
#10	Google: Gemma 3 27B (free)	ModelRun	2	53	-400	-100	10,392	465
#11	MiniMax: MiniMax M2 (free)	Minimax	4	171	-800	-100	36,956	29,384