《迈向可解释强化学习及面向战略决策的定制化学习基准》（70页） - 专知VIP

会员服务 ·

7

军事防务 · 可解释强化学习 · 战略决策 ·

《迈向可解释强化学习及面向战略决策的定制化学习基准》（70页）

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

强化学习在即时战略游戏等复杂领域中取得了显著成功。然而，强化学习智能体不透明的决策过程，为人机协作和战略规划带来了挑战。本文提出了一个可解释强化学习框架，将可解释性技术与基于强化学习的决策在具有代表性的即时战略环境《星际争霸II》中相结合。这项工作引入了MIXTAPE（用于交互式可解释人工智能的中间件，具备基于树状结构的人工智能性能评估），这是一个旨在增强强化学习驱动的战略游戏透明度的系统。此外，开发了一个定制化强化学习基准，以弥合简易迷你游戏与完整游戏复杂性之间的差距，从而实现对人工智能决策策略的渐进式学习和评估。通过结合奖励分解、可视化模块和初步的用户研究设计，本研究为使强化学习智能体更具可解释性铺平了道路，最终旨在促进复杂现实场景中更优的人机协作。

为实现这些目标，本文做出了以下主要贡献：

• 定制化《星际争霸II》地图与渐进式基准测试：我们开发了专门的中等规模地图，将核心决策挑战——导航与战斗——分离开来，同时降低了相对于完整《星际争霸II》游戏的复杂度。这些地图作为系统化测试强化学习智能体及其解释的基准。

• 奖励分解与脚本：我们引入了部分脚本和分解的奖励方案，以促进可解释的多目标行为。这种方法有助于突出智能体在训练不同阶段优先考虑某些目标的原因。

• 可视化模块（“第二屏幕”）：我们设计了一个实时界面的原型，在游戏直播旁绘制智能体状态、Q值或奖励分解图。这个“第二屏幕”可以帮助人类实时追踪策略更新，并检测次优或新兴策略。

• 用户研究框架：我们概述了一个研究设计方案——可能采用参与者间或参与者内设置——以比较多种解释格式（例如，确定性有限自动机与奖励分解）。我们的设计侧重于参与者如何在战略任务中解读、排序和信任智能体的行为。

• 与MIXTAPE整合：通过与宾夕法尼亚州立大学、Kitware公司和美国陆军研究实验室的合作，我们将这些强化学习和可解释人工智能组件嵌入到一个统一平台中，该平台可扩展到未来的多领域或高风险应用。

通过应对算法和面向用户的双重挑战，我们展示了战略领域的强化学习系统如何能够更加透明和具备协作性——将先进的机器学习能力与人类能够理解和信任的清晰、可操作的解读相结合。

成为VIP会员查看完整内容

15

相关内容

军事防务

军事防务数据板块介绍：系统化采集、存储、管理、分析与军事国防安全相关信息的专用数据板块，其核心在于整合全球新兴国防技术（军事人工智能、无人系统等）、热点案例（俄乌战争、美以伊战争）等方面的最新时讯、研究报告/论文、条令法规、案例分析，为战略研判、情报分析、决策支持等提供知识支撑。

《可解释性强化学习模型》

《可解释性强化学习模型》

专知会员服务

24+阅读 · 2月24日

《采用强化学习开发战斗行为》100页

《采用强化学习开发战斗行为》100页

专知会员服务

36+阅读 · 2月15日

《针对指挥控制强化学习智能体的对抗攻击》

《针对指挥控制强化学习智能体的对抗攻击》

专知会员服务

31+阅读 · 2月5日

可解释强化学习综述：目标、方法与需求

可解释强化学习综述：目标、方法与需求

专知会员服务

31+阅读 · 2025年7月19日

《基于随机森林的Q学习算法：迈向可解释人工智能》最新90页

《基于随机森林的Q学习算法：迈向可解释人工智能》最新90页

专知会员服务

31+阅读 · 2025年3月15日

《基于深度强化学习与可解释AI的战斗机导航与作战研究》

《基于深度强化学习与可解释AI的战斗机导航与作战研究》

专知会员服务

42+阅读 · 2025年3月1日

《可解释深度强化学习综述》

《可解释深度强化学习综述》

专知会员服务

40+阅读 · 2025年2月12日

《基于深度强化学习的战场策略》

《基于深度强化学习的战场策略》

专知会员服务

37+阅读 · 2025年1月13日

面向强化学习的可解释性研究综述

面向强化学习的可解释性研究综述

专知会员服务

44+阅读 · 2024年7月30日

强化学习可解释性基础问题探索和方法综述

强化学习可解释性基础问题探索和方法综述

专知会员服务

92+阅读 · 2022年1月16日

【2022新书】深度强化学习基础: Python的理论与实践, 413页pdf

【2022新书】深度强化学习基础: Python的理论与实践, 413页pdf

专知

17+阅读 · 2022年11月18日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

32+阅读 · 2022年10月17日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

【Manning新书】可解释人工智能: 构建可解释机器学习系统，330页pdf

【Manning新书】可解释人工智能: 构建可解释机器学习系统，330页pdf

专知

35+阅读 · 2022年6月2日

【Manning新书】可解释人工智能: 构建可解释机器学习系统，144页pdf

【Manning新书】可解释人工智能: 构建可解释机器学习系统，144页pdf

专知

12+阅读 · 2022年1月28日

「强化学习可解释性」最新2022综述

「强化学习可解释性」最新2022综述

专知

12+阅读 · 2022年1月16日

【开放新书】不确定性决策与强化学习，267页pdf，瑞典查尔姆斯理工大学

【开放新书】不确定性决策与强化学习，267页pdf，瑞典查尔姆斯理工大学

专知

31+阅读 · 2020年4月28日

【微软Alekh等开放新书】强化学习理论与算法，83页pdf，了解最新进展

【微软Alekh等开放新书】强化学习理论与算法，83页pdf，了解最新进展

专知

25+阅读 · 2019年11月23日

548页MIT强化学习教程，收藏备用【PDF下载】

548页MIT强化学习教程，收藏备用【PDF下载】

机器学习算法与Python学习

17+阅读 · 2018年10月11日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

Behavior-Constrained Reinforcement Learning with Receding-Horizon Credit Assignment for High-Performance Control

Arxiv

0+阅读 · 4月3日

Where-to-Learn: Analytical Policy Gradient Directed Exploration for On-Policy Robotic Reinforcement Learning

Arxiv

0+阅读 · 4月1日

A Machine Learning Based Explainability Framework for Interpreting Swarm Intelligence

Arxiv

0+阅读 · 3月31日

Deterministic Policy Gradient for Reinforcement Learning with Continuous Time and State

Arxiv

0+阅读 · 3月16日

Memory, Benchmark & Robots: A Benchmark for Solving Complex Tasks with Reinforcement Learning

Arxiv

0+阅读 · 3月4日

Probing Dec-POMDP Reasoning in Cooperative MARL

Arxiv

0+阅读 · 2月24日

Learning Smooth Time-Varying Linear Policies with an Action Jacobian Penalty

Arxiv

0+阅读 · 2月20日

Learning Optimal and Sample-Efficient Decision Policies with Guarantees

Arxiv

0+阅读 · 2月20日

Hierarchical Multi-Agent Reinforcement Learning for Air Combat Maneuvering

Arxiv

49+阅读 · 2023年9月20日

A Survey on Causal Reinforcement Learning

Arxiv

29+阅读 · 2023年2月10日

VIP会员

相关主题

可解释强化学习

最新内容

ICML 2026 | 演化选择的因果建模

ICML 2026 | 演化选择的因果建模

专知会员服务

0+阅读 · 今天15:45

综述｜学习式3D表征最新进展与趋势

综述｜学习式3D表征最新进展与趋势

专知会员服务

1+阅读 · 今天15:37

《武器作战效能分析：基于虚拟构造仿真大数据与深度学习的初步见解》

《武器作战效能分析：基于虚拟构造仿真大数据与深度学习的初步见解》

专知会员服务

4+阅读 · 今天14:53

《自主巡飞弹药系统量子逻辑框架：一种基于不确定模糊集的方法》

《自主巡飞弹药系统量子逻辑框架：一种基于不确定模糊集的方法》

专知会员服务

3+阅读 · 今天14:47

人工智能重塑威慑：算法优势的兴起

人工智能重塑威慑：算法优势的兴起

专知会员服务

3+阅读 · 今天14:27

【博士论文】基于物理结构与贝叶斯不确定性的可靠神经网络

【博士论文】基于物理结构与贝叶斯不确定性的可靠神经网络

专知会员服务

10+阅读 · 6月4日

AgentOps综述：智能体系统运维框架

AgentOps综述：智能体系统运维框架

专知会员服务

14+阅读 · 6月4日

《美陆军最新条令：兵力防护》

《美陆军最新条令：兵力防护》

专知会员服务

9+阅读 · 6月4日

《军用物联网：架构、应用、挑战与现代战争中的战略意义》

《军用物联网：架构、应用、挑战与现代战争中的战略意义》

专知会员服务

8+阅读 · 6月4日

《人工智能的挑战：算法战的想象与现实》

《人工智能的挑战：算法战的想象与现实》

专知会员服务

11+阅读 · 6月4日

《自适应智能：融合数字孪生精准性与人工智能预见力，实现实时决策》

《自适应智能：融合数字孪生精准性与人工智能预见力，实现实时决策》

专知会员服务

13+阅读 · 6月4日

首场人工智能战争：Maven如何重塑武装冲突

首场人工智能战争：Maven如何重塑武装冲突

专知会员服务

7+阅读 · 6月4日

【博士论文】抽象信息论与安全奖励学习的数学发展

【博士论文】抽象信息论与安全奖励学习的数学发展

专知会员服务

9+阅读 · 6月3日

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

专知会员服务

6+阅读 · 6月3日

《推进军事决策支持：运用强化学习驱动仿真的稳健作战计划验证》

《推进军事决策支持：运用强化学习驱动仿真的稳健作战计划验证》

专知会员服务

13+阅读 · 6月3日

相关VIP内容

《可解释性强化学习模型》

《可解释性强化学习模型》

专知会员服务

24+阅读 · 2月24日

《采用强化学习开发战斗行为》100页

《采用强化学习开发战斗行为》100页

专知会员服务

36+阅读 · 2月15日

《针对指挥控制强化学习智能体的对抗攻击》

《针对指挥控制强化学习智能体的对抗攻击》

专知会员服务

31+阅读 · 2月5日

可解释强化学习综述：目标、方法与需求

可解释强化学习综述：目标、方法与需求

专知会员服务

31+阅读 · 2025年7月19日

《基于随机森林的Q学习算法：迈向可解释人工智能》最新90页

《基于随机森林的Q学习算法：迈向可解释人工智能》最新90页

专知会员服务

31+阅读 · 2025年3月15日

《基于深度强化学习与可解释AI的战斗机导航与作战研究》

《基于深度强化学习与可解释AI的战斗机导航与作战研究》

专知会员服务

42+阅读 · 2025年3月1日

《可解释深度强化学习综述》

《可解释深度强化学习综述》

专知会员服务

40+阅读 · 2025年2月12日

《基于深度强化学习的战场策略》

《基于深度强化学习的战场策略》

专知会员服务

37+阅读 · 2025年1月13日

面向强化学习的可解释性研究综述

面向强化学习的可解释性研究综述

专知会员服务

44+阅读 · 2024年7月30日

强化学习可解释性基础问题探索和方法综述

强化学习可解释性基础问题探索和方法综述

专知会员服务

92+阅读 · 2022年1月16日

热门VIP内容

开通专知VIP会员享更多权益服务

综述｜学习式3D表征最新进展与趋势

《自主巡飞弹药系统量子逻辑框架：一种基于不确定模糊集的方法》

ICML 2026 | 演化选择的因果建模

《武器作战效能分析：基于虚拟构造仿真大数据与深度学习的初步见解》

相关资讯

【2022新书】深度强化学习基础: Python的理论与实践, 413页pdf

【2022新书】深度强化学习基础: Python的理论与实践, 413页pdf

专知

17+阅读 · 2022年11月18日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

32+阅读 · 2022年10月17日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

【Manning新书】可解释人工智能: 构建可解释机器学习系统，330页pdf

【Manning新书】可解释人工智能: 构建可解释机器学习系统，330页pdf

专知

35+阅读 · 2022年6月2日

【Manning新书】可解释人工智能: 构建可解释机器学习系统，144页pdf

【Manning新书】可解释人工智能: 构建可解释机器学习系统，144页pdf

专知

12+阅读 · 2022年1月28日

「强化学习可解释性」最新2022综述

「强化学习可解释性」最新2022综述

专知

12+阅读 · 2022年1月16日

【开放新书】不确定性决策与强化学习，267页pdf，瑞典查尔姆斯理工大学

【开放新书】不确定性决策与强化学习，267页pdf，瑞典查尔姆斯理工大学

专知

31+阅读 · 2020年4月28日

【微软Alekh等开放新书】强化学习理论与算法，83页pdf，了解最新进展

【微软Alekh等开放新书】强化学习理论与算法，83页pdf，了解最新进展

专知

25+阅读 · 2019年11月23日

548页MIT强化学习教程，收藏备用【PDF下载】

548页MIT强化学习教程，收藏备用【PDF下载】

机器学习算法与Python学习

17+阅读 · 2018年10月11日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

相关论文

Behavior-Constrained Reinforcement Learning with Receding-Horizon Credit Assignment for High-Performance Control

Arxiv

0+阅读 · 4月3日

Where-to-Learn: Analytical Policy Gradient Directed Exploration for On-Policy Robotic Reinforcement Learning

Arxiv

0+阅读 · 4月1日

A Machine Learning Based Explainability Framework for Interpreting Swarm Intelligence

Arxiv

0+阅读 · 3月31日

Deterministic Policy Gradient for Reinforcement Learning with Continuous Time and State

Arxiv

0+阅读 · 3月16日

Memory, Benchmark & Robots: A Benchmark for Solving Complex Tasks with Reinforcement Learning

Arxiv

0+阅读 · 3月4日

Probing Dec-POMDP Reasoning in Cooperative MARL

Arxiv

0+阅读 · 2月24日

Learning Smooth Time-Varying Linear Policies with an Action Jacobian Penalty

Arxiv

0+阅读 · 2月20日

Learning Optimal and Sample-Efficient Decision Policies with Guarantees

Arxiv

0+阅读 · 2月20日

Hierarchical Multi-Agent Reinforcement Learning for Air Combat Maneuvering

Arxiv

49+阅读 · 2023年9月20日

A Survey on Causal Reinforcement Learning

Arxiv

29+阅读 · 2023年2月10日

微信扫码咨询专知VIP会员