The advancement of data-driven artificial intelligence (AI), particularly machine learning, heavily depends on large-scale benchmarks. Despite remarkable progress across domains ranging from pattern recognition to intelligent decision-making in recent decades, exemplified by breakthroughs in board games, card games, and electronic sports games, there remains a pressing need for more challenging benchmarks to drive further research. To this end, this paper proposes OpenGuanDan, a novel benchmark that enables both efficient simulation of GuanDan (a popular four-player, multi-round Chinese card game) and comprehensive evaluation of both learning-based and rule-based GuanDan AI agents. OpenGuanDan poses a suite of nontrivial challenges, including imperfect information, large-scale information set and action spaces, a mixed learning objective involving cooperation and competition, long-horizon decision-making, variable action spaces, and dynamic team composition. These characteristics make it a demanding testbed for existing intelligent decision-making methods. Moreover, the independent API for each player allows human-AI interactions and supports integration with large language models. Empirically, we conduct two types of evaluations: (1) pairwise competitions among all GuanDan AI agents, and (2) human-AI matchups. Experimental results demonstrate that while current learning-based agents substantially outperform rule-based counterparts, they still fall short of achieving superhuman performance, underscoring the need for continued research in multi-agent intelligent decision-making domain. The project is publicly available at https://github.com/GameAI-NJUPT/OpenGuanDan.


翻译:数据驱动的人工智能(尤其是机器学习)的进步在很大程度上依赖于大规模基准测试。尽管近几十年来,从模式识别到智能决策的各个领域都取得了显著进展,例如在棋盘游戏、卡牌游戏和电子竞技游戏中取得的突破,但仍迫切需要更具挑战性的基准来推动进一步研究。为此,本文提出了OpenGuanDan,这是一个新颖的基准,既能高效模拟掼蛋(一种流行的四人多轮中国纸牌游戏),又能对基于学习和基于规则的掼蛋AI智能体进行全面评估。OpenGuanDan提出了一系列非平凡的挑战,包括非完美信息、大规模信息集和动作空间、涉及合作与竞争的混合学习目标、长时程决策、可变动作空间以及动态团队构成。这些特性使其成为对现有智能决策方法要求苛刻的测试平台。此外,每个玩家的独立API允许人机交互,并支持与大语言模型的集成。在实证研究中,我们进行了两种类型的评估:(1)所有掼蛋AI智能体之间的两两对抗,以及(2)人机对战。实验结果表明,尽管当前基于学习的智能体显著优于基于规则的对手,但它们仍未达到超人类水平,这凸显了在多智能体智能决策领域持续研究的必要性。该项目已在https://github.com/GameAI-NJUPT/OpenGuanDan 公开。

0
下载
关闭预览

相关内容

美智库最新报告:小数据人工智能潜力不可估量,39页pdf
专知会员服务
75+阅读 · 2021年11月18日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
用机器学习来预测股价(代码+文档)——2018年iNTUtion决赛大作!
量化投资与机器学习
25+阅读 · 2018年11月20日
谷歌推出新型数据增强算法:AutoAugment
论智
20+阅读 · 2018年6月6日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
【知识图谱】大规模知识图谱的构建、推理及应用
产业智能官
38+阅读 · 2017年9月12日
大规模知识图谱的构建、推理及应用
人工智能头条
15+阅读 · 2017年8月29日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
41+阅读 · 2014年12月31日
VIP会员
相关VIP内容
美智库最新报告:小数据人工智能潜力不可估量,39页pdf
专知会员服务
75+阅读 · 2021年11月18日
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
41+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员