《基于Transformer的智能体的战术决策解释》 - 专知VIP

会员服务 ·

22

AI与军事 · 多智能体 · 军事决策 ·

2025 年 12 月 28 日

《基于Transformer的智能体的战术决策解释》

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

在复杂环境中能够进行复杂策略决策的自主智能体的开发是人工智能的核心目标。本文提出了一个在模拟网格世界战场环境中发现和解释策略的框架。我们利用AlphaZero算法——一种将蒙特卡洛树搜索与深度神经网络相结合的强大强化学习方法——来训练智能体。关键在于，该神经网络组件采用了Transformer架构。这项工作的主要贡献在于所提出的方法：利用Transformer内部的自注意力机制来深入理解智能体的决策过程，具体而言，通过可视化展示网络在选择行动时关注战场的哪些区域。该方法不仅旨在开发高性能的智能体，同时也致力于增强其学习所得策略的可解释性。

成为VIP会员查看完整内容

39

相关内容

AI与军事

人工智能在军事中可用于多项任务，例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。

《机械化作战行动中的行动方案自主生成》

《机械化作战行动中的行动方案自主生成》

专知会员服务

33+阅读 · 2025年11月14日

《基于人工智能工具改进战争场景的实时军事训练模拟器综述》

《基于人工智能工具改进战争场景的实时军事训练模拟器综述》

专知会员服务

28+阅读 · 2025年11月4日

《基于分层多智能体强化学习的逼真空战协同策略》

《基于分层多智能体强化学习的逼真空战协同策略》

专知会员服务

39+阅读 · 2025年10月30日

《面向未来部队设计的兵棋推演：解锁过程中的作战艺术》

《面向未来部队设计的兵棋推演：解锁过程中的作战艺术》

专知会员服务

20+阅读 · 2025年9月27日

《战斗模拟中的强化学习》

《战斗模拟中的强化学习》

专知会员服务

41+阅读 · 2024年12月10日

《生成式人工智能和情报评估》

《生成式人工智能和情报评估》

专知会员服务

88+阅读 · 2024年7月22日

《将大型语言模型（LLM）整合到海军作战规划中》

《将大型语言模型（LLM）整合到海军作战规划中》

专知会员服务

129+阅读 · 2024年6月13日

《基于自然语言的人工智能军事决策支持》

《基于自然语言的人工智能军事决策支持》

专知会员服务

152+阅读 · 2024年1月25日

《用于空战机动的分层多智能体强化学习》

《用于空战机动的分层多智能体强化学习》

专知会员服务

66+阅读 · 2023年10月5日

《军事背景下能力规划的概念模型》

《军事背景下能力规划的概念模型》

专知会员服务

155+阅读 · 2023年3月28日

《利用边缘高性能计算 (HPC) 加速战术决策过程》美国陆军，43页报告

《利用边缘高性能计算 (HPC) 加速战术决策过程》美国陆军，43页报告

专知

113+阅读 · 2023年4月5日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

26+阅读 · 2022年11月24日

《人工智能开发的严谨度》美国海军空战中心武器部 2022最新71页报告

《人工智能开发的严谨度》美国海军空战中心武器部 2022最新71页报告

专知

53+阅读 · 2022年9月25日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

65+阅读 · 2022年8月25日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

专知

54+阅读 · 2022年6月2日

深度学习超参数搜索实用指南

深度学习超参数搜索实用指南

云栖社区

28+阅读 · 2018年10月14日

ECCV2018教程146页《对抗机器学习》PPT教程（附PPT下载）

ECCV2018教程146页《对抗机器学习》PPT教程（附PPT下载）

专知

21+阅读 · 2018年9月7日

鲍捷 | 知识表示——面向实战的介绍

鲍捷 | 知识表示——面向实战的介绍

开放知识图谱

11+阅读 · 2017年10月23日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

39+阅读 · 2015年12月31日

求解一类公平疏散问题的高性能混合算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

46+阅读 · 2015年12月31日

复杂场景下目标跟踪的表观建模研究

国家自然科学基金

1+阅读 · 2015年12月31日

CGF战场空间认知行为建模研究

国家自然科学基金

51+阅读 · 2014年12月31日

面向主体行为网的自适应作战机理研究

国家自然科学基金

24+阅读 · 2014年12月31日

基于Markov博弈的计算机网络对抗行动策略分析与建模研究

国家自然科学基金

17+阅读 · 2013年12月31日

不确定环境下基于HTN的应急任务规划方法研究

国家自然科学基金

15+阅读 · 2012年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

Bring My Cup! Personalizing Vision-Language-Action Models with Visual Attentive Prompting

Arxiv

0+阅读 · 1月29日

On the Adversarial Robustness of Learning-based Conformal Novelty Detection

Arxiv

0+阅读 · 1月28日

Quick Heuristic Validation of Edges in Dynamic Roadmap Graphs

Arxiv

0+阅读 · 1月28日

Unsupervised Elicitation of Language Models

Arxiv

0+阅读 · 1月26日

CTF for education

Arxiv

0+阅读 · 1月24日

LLM Reasoning for Cold-Start Item Recommendation

Arxiv

0+阅读 · 1月23日

Creativity in the Age of AI: Rethinking the Role of Intentional Agency

Arxiv

0+阅读 · 1月22日

Adaptive Monitoring of Stochastic Fire Front Processes via Information-seeking Predictive Control

Arxiv

0+阅读 · 1月16日

Preliminary Tests of the Anticipatory Classifier System with Hindsight Experience Replay

Arxiv

0+阅读 · 1月14日

Tackling the Kidnapped Robot Problem via Sparse Feasible Hypothesis Sampling and Reliable Batched Multi-Stage Inference

Arxiv

0+阅读 · 1月14日

VIP会员

相关主题

相关VIP内容

《机械化作战行动中的行动方案自主生成》

《机械化作战行动中的行动方案自主生成》

专知会员服务

33+阅读 · 2025年11月14日

《基于人工智能工具改进战争场景的实时军事训练模拟器综述》

《基于人工智能工具改进战争场景的实时军事训练模拟器综述》

专知会员服务

28+阅读 · 2025年11月4日

《基于分层多智能体强化学习的逼真空战协同策略》

《基于分层多智能体强化学习的逼真空战协同策略》

专知会员服务

39+阅读 · 2025年10月30日

《面向未来部队设计的兵棋推演：解锁过程中的作战艺术》

《面向未来部队设计的兵棋推演：解锁过程中的作战艺术》

专知会员服务

20+阅读 · 2025年9月27日

《战斗模拟中的强化学习》

《战斗模拟中的强化学习》

专知会员服务

41+阅读 · 2024年12月10日

《生成式人工智能和情报评估》

《生成式人工智能和情报评估》

专知会员服务

88+阅读 · 2024年7月22日

《将大型语言模型（LLM）整合到海军作战规划中》

《将大型语言模型（LLM）整合到海军作战规划中》

专知会员服务

129+阅读 · 2024年6月13日

《基于自然语言的人工智能军事决策支持》

《基于自然语言的人工智能军事决策支持》

专知会员服务

152+阅读 · 2024年1月25日

《用于空战机动的分层多智能体强化学习》

《用于空战机动的分层多智能体强化学习》

专知会员服务

66+阅读 · 2023年10月5日

《军事背景下能力规划的概念模型》

《军事背景下能力规划的概念模型》

专知会员服务

155+阅读 · 2023年3月28日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

《利用边缘高性能计算 (HPC) 加速战术决策过程》美国陆军，43页报告

《利用边缘高性能计算 (HPC) 加速战术决策过程》美国陆军，43页报告

专知

113+阅读 · 2023年4月5日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

26+阅读 · 2022年11月24日

《人工智能开发的严谨度》美国海军空战中心武器部 2022最新71页报告

《人工智能开发的严谨度》美国海军空战中心武器部 2022最新71页报告

专知

53+阅读 · 2022年9月25日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

65+阅读 · 2022年8月25日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

专知

54+阅读 · 2022年6月2日

深度学习超参数搜索实用指南

深度学习超参数搜索实用指南

云栖社区

28+阅读 · 2018年10月14日

ECCV2018教程146页《对抗机器学习》PPT教程（附PPT下载）

ECCV2018教程146页《对抗机器学习》PPT教程（附PPT下载）

专知

21+阅读 · 2018年9月7日

鲍捷 | 知识表示——面向实战的介绍

鲍捷 | 知识表示——面向实战的介绍

开放知识图谱

11+阅读 · 2017年10月23日

相关基金

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

39+阅读 · 2015年12月31日

求解一类公平疏散问题的高性能混合算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

46+阅读 · 2015年12月31日

复杂场景下目标跟踪的表观建模研究

国家自然科学基金

1+阅读 · 2015年12月31日

CGF战场空间认知行为建模研究

国家自然科学基金

51+阅读 · 2014年12月31日

面向主体行为网的自适应作战机理研究

国家自然科学基金

24+阅读 · 2014年12月31日

基于Markov博弈的计算机网络对抗行动策略分析与建模研究

国家自然科学基金

17+阅读 · 2013年12月31日

不确定环境下基于HTN的应急任务规划方法研究

国家自然科学基金

15+阅读 · 2012年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

相关论文

Bring My Cup! Personalizing Vision-Language-Action Models with Visual Attentive Prompting

Arxiv

0+阅读 · 1月29日

On the Adversarial Robustness of Learning-based Conformal Novelty Detection

Arxiv

0+阅读 · 1月28日

Quick Heuristic Validation of Edges in Dynamic Roadmap Graphs

Arxiv

0+阅读 · 1月28日

Unsupervised Elicitation of Language Models

Arxiv

0+阅读 · 1月26日

CTF for education

Arxiv

0+阅读 · 1月24日

LLM Reasoning for Cold-Start Item Recommendation

Arxiv

0+阅读 · 1月23日

Creativity in the Age of AI: Rethinking the Role of Intentional Agency

Arxiv

0+阅读 · 1月22日

Adaptive Monitoring of Stochastic Fire Front Processes via Information-seeking Predictive Control

Arxiv

0+阅读 · 1月16日

Preliminary Tests of the Anticipatory Classifier System with Hindsight Experience Replay

Arxiv

0+阅读 · 1月14日

Tackling the Kidnapped Robot Problem via Sparse Feasible Hypothesis Sampling and Reliable Batched Multi-Stage Inference

Arxiv

0+阅读 · 1月14日

微信扫码咨询专知VIP会员