Poker is a landmark challenge for artificial intelligence. The dominant approach relies on equilibrium solvers built on counterfactual regret minimization, requiring millions of core-hours of training. Large Language Models (LLMs) possess extensive poker knowledge but perform far below solver-based agents when asked to play directly. Traditional rule-based poker agents are interpretable and training-free, but their strategic ceiling remains far below equilibrium play. We introduce \textbf{PokerSkill}, a training-free and solver-free framework that bridges this gap by using detailed rule-based poker skills as a structured action-grounding interface for LLMs. A deterministic context engine analyzes the current state and retrieves only the relevant fragments from a layered skill library, which is entirely designed by human poker experts, constraining the LLM's choice to reasonable actions. Against GTOWizard, a state-of-the-art GTO benchmark, GPT-5.5 XHigh with PokerSkill achieves $-57 \pm 21$ mbb/hand, Claude Opus 4.6 achieves $-80 \pm 29$ mbb/hand and Claude Opus 4.7 achieves $-87\pm 64$ mbb/hand, reducing losses by 49--61\% compared to default-prompt baselines and outperforming the strong bot Slumbot. Our key finding is that rule-based skills alone do not constitute a strong strategy, and LLMs alone cannot play well, but their combination yields an agent that requires neither training nor solver access yet competes with systems built on millions of core-hours of computation. To our knowledge, this is the first demonstration of an LLM achieving competitive performance in a complex imperfect-information game without game-specific training or solver queries. Code is available at https://github.com/lbn187/PokerSkill.


翻译:扑克是人工智能领域的标志性挑战。主流方法依赖于基于反事实遗憾最小化的均衡求解器,需耗费数百万核时的训练。大语言模型(LLMs)虽具备丰富的扑克知识,但在直接对局时表现远逊于基于求解器的智能体。传统基于规则的扑克智能体具有可解释性且无需训练,但其策略上限仍远低于均衡博弈水平。我们提出**PokerSkill**,一种无需训练和求解器的框架,通过将基于详细规则扑克技能作为LLMs的结构化动作约束接口来弥合这一差距。确定性上下文引擎分析当前状态,并从完全由人类扑克专家设计的分层技能库中仅检索相关片段,限制LLM的选择为合理动作。在与顶尖GTO基准GTOWizard的对战中,搭载PokerSkill的GPT-5.5 XHigh达到$-57 \pm 21$ mbb/hand,Claude Opus 4.6达到$-80 \pm 29$ mbb/hand,Claude Opus 4.7达到$-87\pm 64$ mbb/hand,较默认提示基线减少49–61%的损失,并超越强智能体Slumbot。我们的核心发现是:单独依靠基于规则的技能无法构成强策略,单独依靠LLM也无法良好对局,但两者结合产生的智能体既无需训练也无需求解器,却能与基于数百万核时计算构建的系统相抗衡。据我们所知,这是首个在不进行游戏特定训练或求解器查询的情况下,大语言模型在复杂不完全信息博弈中达到竞争性表现的实证。代码见https://github.com/lbn187/PokerSkill。

0
下载
关闭预览

相关内容

面向统计学家的大型语言模型概述
专知会员服务
32+阅读 · 2025年3月16日
揭示生成式人工智能 / 大型语言模型(LLMs)的军事潜力
专知会员服务
32+阅读 · 2024年9月26日
《大型语言模型(LLMs): 训练到推理》全面概述技术细节
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
兴军亮Science评述:多人德州扑克博弈新突破
中国科学院自动化研究所
19+阅读 · 2019年7月15日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
2+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关VIP内容
面向统计学家的大型语言模型概述
专知会员服务
32+阅读 · 2025年3月16日
揭示生成式人工智能 / 大型语言模型(LLMs)的军事潜力
专知会员服务
32+阅读 · 2024年9月26日
《大型语言模型(LLMs): 训练到推理》全面概述技术细节
相关基金
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员