SpinGPT: A Large-Language-Model Approach to Playing Poker Correctly - 专知论文

会员服务 ·

0

语言模型 · 大语言模型 · 反事实 · IM · 均衡 ·

SpinGPT: A Large-Language-Model Approach to Playing Poker Correctly

翻译：SpinGPT：一种基于大语言模型的正确扑克玩法

Narada Maugin,Tristan Cazenave

from arxiv, Accepted at Advances in Computer Games (ACG) 2025, LNCS (Springer)

The Counterfactual Regret Minimization (CFR) algorithm and its variants have enabled the development of pokerbots capable of beating the best human players in heads-up (1v1) cash games and competing with them in six-player formats. However, CFR's computational complexity rises exponentially with the number of players. Furthermore, in games with three or more players, following Nash equilibrium no longer guarantees a non-losing outcome. These limitations, along with others, significantly restrict the applicability of CFR to the most popular formats: tournaments. Motivated by the recent success of Large Language Models (LLM) in chess and Diplomacy, we present SpinGPT, the first LLM tailored to Spin & Go, a popular three-player online poker format. SpinGPT is trained in two stages: (1) Supervised Fine-Tuning on 320k high-stakes expert decisions; (2) Reinforcement Learning on 270k solver-generated hands. Our results show that SpinGPT matches the solver's actions in 78% of decisions (tolerant accuracy). With a simple deep-stack heuristic, it achieves 13.4 +/- 12.9 BB/100 versus Slumbot in heads-up over 30,000 hands (95% CI). These results suggest that LLMs could be a new way to deal with multi-player imperfect-information games like poker.

翻译：反事实遗憾最小化（Counterfactual Regret Minimization, CFR）算法及其变体已推动开发出能够在单挑（1v1）现金游戏中击败顶尖人类玩家、并在六人局模式中与之抗衡的扑克机器人。然而，CFR的计算复杂度随玩家数量呈指数级增长。此外，在三人或更多玩家的游戏中，遵循纳什均衡不再保证非负收益。这些局限与其他因素共同显著限制了CFR在最流行赛制——锦标赛中的应用。受大语言模型（LLM）近期在国际象棋和《外交》游戏中成功的启发，我们提出了SpinGPT，这是首个针对流行三人线上扑克模式"Spin & Go"定制的大语言模型。SpinGPT的训练分为两个阶段：（1）基于32万手高额注专家决策进行监督微调；（2）基于27万手求解器生成牌局进行强化学习。实验结果表明，SpinGPT在78%的决策中与求解器行动一致（容错准确率）。通过简单的深筹码启发式策略，其在3万手牌中对战Slumbot时获得13.4 ± 12.9 BB/100的胜率（95%置信区间）。这些结果表明，大语言模型可能成为处理扑克等多玩家非完全信息博弈的新途径。

0

相关内容

语言模型

[ICML 2026] SOL：让大模型把算力花在关键Token上：自优化语言模型

[ICML 2026] SOL：让大模型把算力花在关键Token上：自优化语言模型

专知会员服务

7+阅读 · 5月12日

【伯克利博士论文】基于投机性解码的高效大语言模型系统

【伯克利博士论文】基于投机性解码的高效大语言模型系统

专知会员服务

16+阅读 · 1月4日

【微软亚研】rStar-Math：小型大语言模型通过自我进化的深度思维掌握数学推理

【微软亚研】rStar-Math：小型大语言模型通过自我进化的深度思维掌握数学推理

专知会员服务

24+阅读 · 2025年1月13日

大模型如何判决？从生成到判决：大型语言模型作为裁判的机遇与挑战

大模型如何判决？从生成到判决：大型语言模型作为裁判的机遇与挑战

专知会员服务

33+阅读 · 2024年11月29日

《基于大型语言模型的开放式兵棋推演》

《基于大型语言模型的开放式兵棋推演》

专知会员服务

98+阅读 · 2024年4月23日

【大模型对齐】利用对齐使大型语言模型更好地推理

【大模型对齐】利用对齐使大型语言模型更好地推理

专知会员服务

48+阅读 · 2023年9月8日

大型语言模型公平性

大型语言模型公平性

专知会员服务

41+阅读 · 2023年8月31日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

什么是大模型Red-teaming？大模型安全研究《结构大语言模型红蓝对抗》（含下载）

什么是大模型Red-teaming？大模型安全研究《结构大语言模型红蓝对抗》（含下载）

专知会员服务

55+阅读 · 2023年5月1日

《人机对抗中的博弈学习方法》21页PDF，中科院自动化所最新发表

《人机对抗中的博弈学习方法》21页PDF，中科院自动化所最新发表

专知会员服务

117+阅读 · 2022年3月29日

CALDERA 一款对手自动模拟工具

CALDERA 一款对手自动模拟工具

黑白之道

20+阅读 · 2019年9月17日

兴军亮Science评述：多人德州扑克博弈新突破

兴军亮Science评述：多人德州扑克博弈新突破

中国科学院自动化研究所

19+阅读 · 2019年7月15日

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

雷锋网

10+阅读 · 2019年6月27日

中文最佳，哈工大讯飞联合发布全词覆盖中文BERT预训练模型

中文最佳，哈工大讯飞联合发布全词覆盖中文BERT预训练模型

机器之心

23+阅读 · 2019年6月21日

高翔：谈谈语义SLAM/地图

高翔：谈谈语义SLAM/地图

计算机视觉life

37+阅读 · 2019年3月26日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

最强NLP模型BERT喜迎PyTorch版！谷歌官方推荐，也会支持中文

最强NLP模型BERT喜迎PyTorch版！谷歌官方推荐，也会支持中文

量子位

13+阅读 · 2018年11月7日

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

人工智能头条

10+阅读 · 2018年6月29日

资源 | Github项目：斯坦福大学CS-224n课程中深度NLP模型的PyTorch实现

资源 | Github项目：斯坦福大学CS-224n课程中深度NLP模型的PyTorch实现

黑龙江大学自然语言处理实验室

10+阅读 · 2017年11月13日

GAFT：一个使用 Python 实现的遗传算法框架

GAFT：一个使用 Python 实现的遗传算法框架

Python开发者

10+阅读 · 2017年8月1日

近似计算中基于概率图模型的软错误量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

广义多项式混沌方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

正倒向随机微分方程与两类衍生模型的统计推断及金融中的应用

国家自然科学基金

2+阅读 · 2015年12月31日

基于比特置信度的低复杂度多进制LDPC码译码算法

国家自然科学基金

0+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

随机方法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

网络的小世界结构及其上随机游动的混合时

国家自然科学基金

1+阅读 · 2014年12月31日

随机Helmholtz型问题的数值方法

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

Tatemae: Detecting Alignment Faking via Tool Selection in LLMs

Arxiv

0+阅读 · 4月29日

HeiSD: Hybrid Speculative Decoding for Embodied Vision-Language-Action Models with Kinematic Awareness

Arxiv

0+阅读 · 4月27日

Study and Improvement of Search Algorithms in Multi-Player Perfect-Information Games

Arxiv

0+阅读 · 4月19日

LingoLoop Attack: Trapping MLLMs via Linguistic Context and State Entrapment into Endless Loops

Arxiv

0+阅读 · 4月13日

SimBench: Benchmarking the Ability of Large Language Models to Simulate Human Behaviors

Arxiv

0+阅读 · 4月13日

BracketRank: Large Language Model Document Ranking via Reasoning-based Competitive Elimination

Arxiv

0+阅读 · 4月10日

EvoOpt-LLM: Evolving industrial optimization models with large language models

Arxiv

0+阅读 · 3月23日

Leveraging Large Language Models for Generalizing Peephole Optimizations

Arxiv

0+阅读 · 3月19日

Valet: A Standardized Testbed of Traditional Imperfect-Information Card Games

Arxiv

0+阅读 · 3月3日

Reasoning Capabilities of Large Language Models. Lessons Learned from General Game Playing

Arxiv

0+阅读 · 2月22日

VIP会员

文章信息

相关主题

大语言模型

最新内容

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

0+阅读 · 今天16:48

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

0+阅读 · 今天16:47

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

3+阅读 · 今天14:04

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

3+阅读 · 今天13:54

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

6+阅读 · 今天13:49

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

4+阅读 · 今天13:38

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

5+阅读 · 今天13:37

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

5+阅读 · 今天13:11

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

10+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

5+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

5+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

7+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

5+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

6+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

8+阅读 · 5月29日

相关VIP内容

[ICML 2026] SOL：让大模型把算力花在关键Token上：自优化语言模型

[ICML 2026] SOL：让大模型把算力花在关键Token上：自优化语言模型

专知会员服务

7+阅读 · 5月12日

【伯克利博士论文】基于投机性解码的高效大语言模型系统

【伯克利博士论文】基于投机性解码的高效大语言模型系统

专知会员服务

16+阅读 · 1月4日

【微软亚研】rStar-Math：小型大语言模型通过自我进化的深度思维掌握数学推理

【微软亚研】rStar-Math：小型大语言模型通过自我进化的深度思维掌握数学推理

专知会员服务

24+阅读 · 2025年1月13日

大模型如何判决？从生成到判决：大型语言模型作为裁判的机遇与挑战

大模型如何判决？从生成到判决：大型语言模型作为裁判的机遇与挑战

专知会员服务

33+阅读 · 2024年11月29日

《基于大型语言模型的开放式兵棋推演》

《基于大型语言模型的开放式兵棋推演》

专知会员服务

98+阅读 · 2024年4月23日

【大模型对齐】利用对齐使大型语言模型更好地推理

【大模型对齐】利用对齐使大型语言模型更好地推理

专知会员服务

48+阅读 · 2023年9月8日

大型语言模型公平性

大型语言模型公平性

专知会员服务

41+阅读 · 2023年8月31日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

什么是大模型Red-teaming？大模型安全研究《结构大语言模型红蓝对抗》（含下载）

什么是大模型Red-teaming？大模型安全研究《结构大语言模型红蓝对抗》（含下载）

专知会员服务

55+阅读 · 2023年5月1日

《人机对抗中的博弈学习方法》21页PDF，中科院自动化所最新发表

《人机对抗中的博弈学习方法》21页PDF，中科院自动化所最新发表

专知会员服务

117+阅读 · 2022年3月29日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

美以伊战争：首次人工智能战争——军事自主性困境

BES：让语言模型通过双向进化搜索自我改进

以色列-美国-伊朗战争中的无人机：关键要点

相关资讯

CALDERA 一款对手自动模拟工具

CALDERA 一款对手自动模拟工具

黑白之道

20+阅读 · 2019年9月17日

兴军亮Science评述：多人德州扑克博弈新突破

兴军亮Science评述：多人德州扑克博弈新突破

中国科学院自动化研究所

19+阅读 · 2019年7月15日

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

雷锋网

10+阅读 · 2019年6月27日

中文最佳，哈工大讯飞联合发布全词覆盖中文BERT预训练模型

中文最佳，哈工大讯飞联合发布全词覆盖中文BERT预训练模型

机器之心

23+阅读 · 2019年6月21日

高翔：谈谈语义SLAM/地图

高翔：谈谈语义SLAM/地图

计算机视觉life

37+阅读 · 2019年3月26日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

最强NLP模型BERT喜迎PyTorch版！谷歌官方推荐，也会支持中文

最强NLP模型BERT喜迎PyTorch版！谷歌官方推荐，也会支持中文

量子位

13+阅读 · 2018年11月7日

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

人工智能头条

10+阅读 · 2018年6月29日

资源 | Github项目：斯坦福大学CS-224n课程中深度NLP模型的PyTorch实现

资源 | Github项目：斯坦福大学CS-224n课程中深度NLP模型的PyTorch实现

黑龙江大学自然语言处理实验室

10+阅读 · 2017年11月13日

GAFT：一个使用 Python 实现的遗传算法框架

GAFT：一个使用 Python 实现的遗传算法框架

Python开发者

10+阅读 · 2017年8月1日

相关论文

Tatemae: Detecting Alignment Faking via Tool Selection in LLMs

Arxiv

0+阅读 · 4月29日

HeiSD: Hybrid Speculative Decoding for Embodied Vision-Language-Action Models with Kinematic Awareness

Arxiv

0+阅读 · 4月27日

Study and Improvement of Search Algorithms in Multi-Player Perfect-Information Games

Arxiv

0+阅读 · 4月19日

LingoLoop Attack: Trapping MLLMs via Linguistic Context and State Entrapment into Endless Loops

Arxiv

0+阅读 · 4月13日

SimBench: Benchmarking the Ability of Large Language Models to Simulate Human Behaviors

Arxiv

0+阅读 · 4月13日

BracketRank: Large Language Model Document Ranking via Reasoning-based Competitive Elimination

Arxiv

0+阅读 · 4月10日

EvoOpt-LLM: Evolving industrial optimization models with large language models

Arxiv

0+阅读 · 3月23日

Leveraging Large Language Models for Generalizing Peephole Optimizations

Arxiv

0+阅读 · 3月19日

Valet: A Standardized Testbed of Traditional Imperfect-Information Card Games

Arxiv

0+阅读 · 3月3日

Reasoning Capabilities of Large Language Models. Lessons Learned from General Game Playing

Arxiv

0+阅读 · 2月22日

相关基金

近似计算中基于概率图模型的软错误量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

广义多项式混沌方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

正倒向随机微分方程与两类衍生模型的统计推断及金融中的应用

国家自然科学基金

2+阅读 · 2015年12月31日

基于比特置信度的低复杂度多进制LDPC码译码算法

国家自然科学基金

0+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

随机方法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

网络的小世界结构及其上随机游动的混合时

国家自然科学基金

1+阅读 · 2014年12月31日

随机Helmholtz型问题的数值方法

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员