2025中国人工智能学会系列白皮书⸺棋盘上的人工智能|附下载

前言计算机博弈是人工智能领域的重要应用，它以高对抗性的棋牌类游戏项目为研究对象，具有怡神益智、评判客观、挑战无穷的特点。近年来，随着人工智能、大模型等技术的飞速发展，计算机博弈模型能够自主学习复杂的策略和技能、处理更加复杂的博弈任务，成为衡量AI智能水平的重要领域之一。从棋类博弈到电子游戏，机器博弈不仅是技术进步的展示窗口，更是人类智慧与机器智能交互融合的舞台。未来，计算机博弈领域将继续快速发展，技术的融合和创新将推动该领域达到新的高度。本书编写的指导思想是：通识技术和专项技术相结合，依托具体的棋牌类项目，介绍国内外相关技术的应用方法与进展。本书主要介绍了机器博弈的发展历程、国内外研究现状、复杂度分析、机器博弈的典型技术、平台技术，完备信息博弈和非完备信息博弈的关键技术、以及国内外赛事等，提出了机器博弈未来的发展趋势。期望该书的出版能促进全社会对机器博弈、以及人工智能的整体认知和应用水平。：

一、机器博弈的发展脉络：从“智能测试”到“通用决策引擎”

白皮书清晰梳理了机器博弈的四个发展阶段，本质是“人工智能能力的具象化测试”到“通用战略智能载体”的跃迁： 1. 萌芽阶段（1920s-1950s）：理论奠基期。冯·诺依曼（1928年极大极小值定理）、图灵（1950年纸上国际象棋程序）、香农（1950年象棋编程方案）、麦卡锡（1956年Alpha-Beta剪枝）等学者建立了博弈论与搜索算法的理论基础，将“机器思考”从哲学问题转化为可计算问题。 1. 发展阶段（1960s-1990s）：工程化突破期。塞缪·塞缪尔（1959年西洋跳棋程序击败州冠军）、IBM“深思”（1988年击败丹麦特级大师）、“深蓝”（1997年击败卡斯帕罗夫）等事件，标志机器博弈从“玩具”走向“挑战人类顶级智能”，核心是搜索算法的优化（如Alpha-Beta剪枝、并行搜索）。 1. 深度学习阶段（2010s-2020s）：范式革命期。AlphaGo（2016年击败李世石）将深度学习+蒙特卡洛树搜索（MCTS）结合，突破传统搜索的“算力瓶颈”；AlphaZero（2017年无人类数据自对弈）实现“通用棋类智能”；Libratus（2017年击败德州扑克人类高手）攻克非完备信息博弈，标志机器博弈从“完备信息”向“真实世界复杂场景”延伸。 1. 融合创新阶段（2020s至今）：通用化与产业化期。大语言模型（LLM）与博弈的结合（如MARS框架）、多智能体强化学习（MARL）、软硬件协同（机器人五子棋、坦克大战）成为热点，机器博弈从“游戏”转向“智能决策引擎”（如军事推演、金融交易、自动驾驶）。

二、机器博弈的核心技术：从“搜索”到“认知”的跃迁

白皮书第4章“典型技术”系统总结了机器博弈的16类关键技术，核心逻辑是“用算法模拟人类决策”，可分为传统搜索、智能优化、认知学习三大类：

1. 传统搜索算法：解决“状态空间爆炸”**

穷尽搜索：极大极小算法（基础）、负极大值算法（简化实现），适用于小规模博弈（如 tic-tac-toe）。 * 裁剪搜索：Alpha-Beta剪枝（减少无效节点）、渴望搜索（缩小窗口）、MTD(f)（零窗口迭代），是多数博弈程序的“基础引擎”。 * 启发式搜索：置换表（存储已搜索节点）、历史启发（优先好着法）、杀手启发（优先剪枝过的着法），提升搜索效率。 * 随机搜索：蒙特卡洛树搜索（MCTS，适用于围棋、六子棋）、UCT（UCB+树搜索，平衡探索与利用），解决“高分支因子”问题（如围棋的10^170状态空间）。

2. 智能优化算法：提升“决策质量”**

遗传算法：模拟自然选择优化评估函数（如中国象棋、亚马逊棋的估值参数），适用于“多目标优化”。 * 并行计算：SMP（单机多线程）、Cluster（多机集群），利用GPU/TPU加速深度学习训练与搜索。 * 微分博弈：连续时间动态博弈（如追逃问题、兵棋推演），结合最优控制理论。

3. 认知学习算法：实现“类人智能”**

神经网络与深度学习：卷积神经网络（CNN，提取棋盘空间特征）、循环神经网络（RNN，处理序列决策）、Transformer（长程依赖建模），如AlphaGo的“策略网络+价值网络”。 * 强化学习（RL）：Q-Learning（离散动作）、DQN（深度Q网络）、PPO（近端策略优化），通过“自对弈”学习策略（如AlphaZero、Suphx麻将AI）。 * 多智能体强化学习（MARL）：中心化训练+去中心化执行（如桥牌、斗地主的农民协作），解决“多角色对抗/合作”问题。 * 贝叶斯网络与概率推理：处理非完备信息（如军棋的棋子可能性矩阵、德州扑克的对手手牌推断），核心是“信念更新”。

三、国内外机器博弈现状：从“跟随”到“局部领先”

白皮书第2章“发展状况”对比了国外（基础研究主导）与国内（应用与工程主导）的差异：

1. 国外：基础理论与通用算法引领**

机构：DeepMind（Alpha系列）、OpenAI（OpenAI Five、GPT-4博弈）、卡内基梅隆（Libratus、Pluribus）、阿尔伯塔大学（CFR算法）。 * 核心贡献：提出Alpha-Beta剪枝、MCTS、CFR（反事实遗憾最小化）、AlphaZero通用框架，定义“深度学习+博弈”的范式。 * 应用：游戏（星际争霸、Dota2）、金融（扑克AI）、军事（兵棋推演）。

2. 国内：应用落地与特色棋种突破**

历史贡献：东北大学徐心和（中国象棋“棋天大圣”、机器博弈专委会）、中山大学陈志行（围棋“手谈”获世界冠军）、许峰雄（深蓝核心成员）。 * 当前进展：

棋种优化：六子棋（TSS迫着搜索）、藏族久棋（三阶段嵌套算法）、麻将（MJE-RL深度强化学习）、幻影围棋（信念状态-MCTS）。 * 产业应用：腾讯“绝艺”（围棋AI）、新睿桥牌（桥牌AI）、竞技世界（麻将平台）。 * 赛事生态：中国计算机博弈大赛（2006年至今，从1个项目到21个项目，参赛队伍从18支到471支），成为“全球规模最大的机器博弈赛事”。

四、机器博弈的挑战与未来趋势

白皮书第2.4节“面临的问题与展望”、第9章“结束语”明确了国内机器博弈的“卡脖子”问题与未来方向：

1. 核心挑战**

算力依赖：高端GPU（如英伟达A100）依赖进口，国产芯片（如华为昇腾910B）在软件生态与算力密度上仍有差距。 * 算法创新不足：多跟踪国外范式（如Alpha系列、CFR），缺乏“通用非完备信息求解器”等原创理论。 * 开源生态薄弱：缺乏统一的基准数据集（如OpenSpiel）与开源平台，中小团队入门门槛高。 * 人才短缺：复合型人才（博弈论+AI+系统工程）不足，产学研脱节。 * 伦理与安全：AI决策的“黑箱性”（如自主武器）、价值对齐（如博弈中的“不择手段”）、责任归属模糊。

2. 未来趋势**

复杂化：从“完备信息”转向“非完备信息”（如德州扑克、军棋），从“双人博弈”转向“多智能体协作/对抗”（如桥牌、斗地主）。 * 智能化：从“专用AI”转向“通用战略智能”（如MARS框架用LLM+自博弈培养通用决策体），从“游戏”转向“真实场景”（如智能交通、医疗诊断）。 * 集成化：多技术融合（深度学习+强化学习+MCTS+知识库），软硬件协同（机器人五子棋、坦克大战）。 * 产业化：游戏（AI陪练、智能NPC）、金融（量化交易）、军事（兵棋推演、无人机决策）、教育（博弈思维训练）。

五、白皮书的价值与特点

系统性：覆盖“历史-技术-现状-赛事-趋势”全链条，是机器博弈领域的“百科全书”。 1. 实践性：各章节由高校教师（机器博弈竞赛指导经验）编写，结合“六子棋、久棋、麻将”等特色棋种的具体技术，避免“空泛理论”。 1. 时效性：纳入2024-2025年的最新进展（如大语言模型与博弈结合、机器人五子棋、国产芯片昇腾910B），反映领域前沿。 1. 科普性：前言、引言用通俗语言解释“机器博弈是什么”“为什么重要”，适合非专业读者入门。

总结

这份白皮书不仅是机器博弈领域的学术总结，更是中国机器博弈发展的“路线图”——它既展示了国内从“跟随”到“局部领先”的成就（如赛事规模、特色棋种技术），也指出了“卡脖子”问题（算力、算法、生态），为未来研究（如通用智能、伦理治理）与产业应用（如游戏、军事）提供了方向。机器博弈的本质是**“用游戏测试智能”，而未来的机器博弈将超越“游戏”，成为通用人工智能（AGI）的“训练场”**——通过自对弈、多智能体协作，培养“能理解、会决策、善合作”的智能体，最终服务于人类社会的复杂决策需求。

成为VIP会员查看完整内容

相关内容

中国人工智能学会(CAAI)

关注 847

中国人工智能学会（Chinese Association for Artificial Intelligence，CAAI）成立于1981年，是经国家民政部正式注册的我国智能科学技术领域唯一的国家级学会，是全国性4A级社会组织，挂靠单位为北京邮电大学；是中国科学技术协会的正式团体会员，具有推荐“两院院士”的资格。

中国人工智能应用发展报告（2025）

专知会员服务

64+阅读 · 2025年7月21日

上交大2025《“人工智能+”行业发展蓝皮书》，137页pdf

专知会员服务

34+阅读 · 2025年6月20日

工业人工智能白皮书2025年版：边缘AI驱动，助力新质生产力，82页pdf

专知会员服务

42+阅读 · 2025年1月17日

2024年中国人工智能人才发展报告｜附76页PDF文件下载

专知会员服务

61+阅读 · 2024年8月31日