AI researchers have long focused on poker-like games as a testbed for environments characterized by multi-player dynamics, imperfect information, and reasoning under uncertainty. While recent breakthroughs have matched elite human play at no-limit Texas hold'em, the multi-player dynamics are subdued: most hands converge quickly with only two players engaged through multiple rounds of bidding. In this paper, we present Solly, the first AI agent to achieve elite human play in reduced-format Liar's Poker, a game characterized by extensive multi-player engagement. We trained Solly using self-play with a model-free, actor-critic, deep reinforcement learning algorithm. Solly played at an elite human level as measured by win rate (won over 50% of hands) and equity (money won) in heads-up and multi-player Liar's Poker. Solly also outperformed large language models (LLMs), including those with reasoning abilities, on the same metrics. Solly developed novel bidding strategies, randomized play effectively, and was not easily exploitable by world-class human players.


翻译:长期以来,人工智能研究者将扑克类游戏视为测试多玩家动态、不完全信息及不确定性环境下推理能力的基准环境。尽管近期突破性进展已使AI在无限注德州扑克中达到顶尖人类水平,但此类游戏的多玩家动态较为收敛:多数牌局迅速结束,仅有两名玩家通过多轮叫注展开博弈。本文提出首个在简化版骗子扑克中达到顶尖人类水平的AI智能体Solly,该游戏以广泛的多玩家互动为特征。我们采用无模型、演员-评论家架构的深度强化学习算法,通过自我博弈训练Solly。在单挑与多玩家骗子扑克中,Solly在胜率(赢得超过50%牌局)与权益(赢取金额)指标上均达到精英人类水平。Solly在相同指标上亦优于包括具备推理能力的大型语言模型(LLMs)。Solly发展出新颖的叫注策略,能有效实施随机化博弈,且不易被世界级人类玩家利用。

0
下载
关闭预览

相关内容

《推演一局?面向开放式兵棋推演的语言模型》
专知会员服务
24+阅读 · 2025年11月24日
【NeurIPS2025】迈向鲁棒的零样本强化学习
专知会员服务
14+阅读 · 2025年10月20日
SFT 记忆,RL 泛化:基础模型后训练的比较研究
专知会员服务
24+阅读 · 2025年2月3日
基于大型语言模型的游戏智能体综述
专知会员服务
66+阅读 · 2024年4月3日
《通过兵棋推演了解城市冲突》
专知会员服务
76+阅读 · 2023年10月13日
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
兴军亮Science评述:多人德州扑克博弈新突破
中国科学院自动化研究所
19+阅读 · 2019年7月15日
教程 | PyTorch经验指南:技巧与陷阱
机器之心
16+阅读 · 2018年7月30日
动手写机器学习算法:异常检测 Anomaly Detection
七月在线实验室
11+阅读 · 2017年12月8日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
499+阅读 · 2023年3月31日
Arxiv
11+阅读 · 2018年4月25日
VIP会员
相关资讯
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
兴军亮Science评述:多人德州扑克博弈新突破
中国科学院自动化研究所
19+阅读 · 2019年7月15日
教程 | PyTorch经验指南:技巧与陷阱
机器之心
16+阅读 · 2018年7月30日
动手写机器学习算法:异常检测 Anomaly Detection
七月在线实验室
11+阅读 · 2017年12月8日
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员