在复杂环境中能够进行复杂策略决策的自主智能体的开发是人工智能的核心目标。本文提出了一个在模拟网格世界战场环境中发现和解释策略的框架。我们利用AlphaZero算法——一种将蒙特卡洛树搜索与深度神经网络相结合的强大强化学习方法——来训练智能体。关键在于,该神经网络组件采用了Transformer架构。这项工作的主要贡献在于所提出的方法:利用Transformer内部的自注意力机制来深入理解智能体的决策过程,具体而言,通过可视化展示网络在选择行动时关注战场的哪些区域。该方法不仅旨在开发高性能的智能体,同时也致力于增强其学习所得策略的可解释性。

成为VIP会员查看完整内容
24

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
《战斗模拟中的强化学习》
专知会员服务
40+阅读 · 2024年12月10日
《生成式人工智能和情报评估》
专知会员服务
87+阅读 · 2024年7月22日
《将大型语言模型(LLM)整合到海军作战规划中》
专知会员服务
125+阅读 · 2024年6月13日
《军事背景下能力规划的概念模型》
专知会员服务
154+阅读 · 2023年3月28日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
鲍捷 | 知识表示——面向实战的介绍
开放知识图谱
11+阅读 · 2017年10月23日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2013年12月31日
国家自然科学基金
15+阅读 · 2012年12月31日
VIP会员
相关VIP内容
《战斗模拟中的强化学习》
专知会员服务
40+阅读 · 2024年12月10日
《生成式人工智能和情报评估》
专知会员服务
87+阅读 · 2024年7月22日
《将大型语言模型(LLM)整合到海军作战规划中》
专知会员服务
125+阅读 · 2024年6月13日
《军事背景下能力规划的概念模型》
专知会员服务
154+阅读 · 2023年3月28日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2013年12月31日
国家自然科学基金
15+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员