强化学习在即时战略游戏等复杂领域中取得了显著成功。然而,强化学习智能体不透明的决策过程,为人机协作和战略规划带来了挑战。本文提出了一个可解释强化学习框架,将可解释性技术与基于强化学习的决策在具有代表性的即时战略环境《星际争霸II》中相结合。这项工作引入了MIXTAPE(用于交互式可解释人工智能的中间件,具备基于树状结构的人工智能性能评估),这是一个旨在增强强化学习驱动的战略游戏透明度的系统。此外,开发了一个定制化强化学习基准,以弥合简易迷你游戏与完整游戏复杂性之间的差距,从而实现对人工智能决策策略的渐进式学习和评估。通过结合奖励分解、可视化模块和初步的用户研究设计,本研究为使强化学习智能体更具可解释性铺平了道路,最终旨在促进复杂现实场景中更优的人机协作。

为实现这些目标,本文做出了以下主要贡献:

• 定制化《星际争霸II》地图与渐进式基准测试:我们开发了专门的中等规模地图,将核心决策挑战——导航与战斗——分离开来,同时降低了相对于完整《星际争霸II》游戏的复杂度。这些地图作为系统化测试强化学习智能体及其解释的基准。

• 奖励分解与脚本:我们引入了部分脚本和分解的奖励方案,以促进可解释的多目标行为。这种方法有助于突出智能体在训练不同阶段优先考虑某些目标的原因。

• 可视化模块(“第二屏幕”):我们设计了一个实时界面的原型,在游戏直播旁绘制智能体状态、Q值或奖励分解图。这个“第二屏幕”可以帮助人类实时追踪策略更新,并检测次优或新兴策略。

• 用户研究框架:我们概述了一个研究设计方案——可能采用参与者间或参与者内设置——以比较多种解释格式(例如,确定性有限自动机与奖励分解)。我们的设计侧重于参与者如何在战略任务中解读、排序和信任智能体的行为。

• 与MIXTAPE整合:通过与宾夕法尼亚州立大学、Kitware公司和美国陆军研究实验室的合作,我们将这些强化学习和可解释人工智能组件嵌入到一个统一平台中,该平台可扩展到未来的多领域或高风险应用。

通过应对算法和面向用户的双重挑战,我们展示了战略领域的强化学习系统如何能够更加透明和具备协作性——将先进的机器学习能力与人类能够理解和信任的清晰、可操作的解读相结合。

成为VIP会员查看完整内容
6

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
《可解释性强化学习模型》
专知会员服务
24+阅读 · 2月24日
《采用强化学习开发战斗行为》100页
专知会员服务
32+阅读 · 2月15日
《针对指挥控制强化学习智能体的对抗攻击》
专知会员服务
31+阅读 · 2月5日
可解释强化学习综述:目标、方法与需求
专知会员服务
31+阅读 · 2025年7月19日
《可解释深度强化学习综述》
专知会员服务
40+阅读 · 2025年2月12日
《基于深度强化学习的战场策略》
专知会员服务
37+阅读 · 2025年1月13日
面向强化学习的可解释性研究综述
专知会员服务
44+阅读 · 2024年7月30日
强化学习可解释性基础问题探索和方法综述
专知会员服务
92+阅读 · 2022年1月16日
【MIT博士论文】数据高效强化学习,176页pdf
「强化学习可解释性」最新2022综述
专知
12+阅读 · 2022年1月16日
548页MIT强化学习教程,收藏备用【PDF下载】
机器学习算法与Python学习
17+阅读 · 2018年10月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2月15日
On Computation and Reinforcement Learning
VIP会员
最新内容
人工智能在战场行动中的演进及伊朗案例
专知会员服务
7+阅读 · 4月18日
美AI公司Anthropic推出网络安全模型“Mythos”
专知会员服务
4+阅读 · 4月18日
【博士论文】面向城市环境的可解释计算机视觉
大语言模型的自改进机制:技术综述与未来展望
《第四代军事特种作战部队选拔与评估》
专知会员服务
3+阅读 · 4月18日
相关VIP内容
《可解释性强化学习模型》
专知会员服务
24+阅读 · 2月24日
《采用强化学习开发战斗行为》100页
专知会员服务
32+阅读 · 2月15日
《针对指挥控制强化学习智能体的对抗攻击》
专知会员服务
31+阅读 · 2月5日
可解释强化学习综述:目标、方法与需求
专知会员服务
31+阅读 · 2025年7月19日
《可解释深度强化学习综述》
专知会员服务
40+阅读 · 2025年2月12日
《基于深度强化学习的战场策略》
专知会员服务
37+阅读 · 2025年1月13日
面向强化学习的可解释性研究综述
专知会员服务
44+阅读 · 2024年7月30日
强化学习可解释性基础问题探索和方法综述
专知会员服务
92+阅读 · 2022年1月16日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员