本文强调在生成逼真军事仿真时整合合理的战术行为,这包括定义战斗战术、条令、交战规则和作战概念。强化学习(RL)的最新进展使得RL智能体能够生成广泛的战术行动。本文使用一个多智能体地面战斗场景来演示机器学习(ML)应用如何在遵循给定目标的同时生成策略并下达命令。使用自然语言来下达条令和目标,以改善人类顾问与ML智能体之间的沟通。这使我们能够将目标和现有条令嵌入人工智能(AI)的推理过程中。该研究展示了成功集成自然语言使智能体能够实现不同目标。此项基础工作将增强RL智能体未来维护军事行动条令和规则的能力。

过去几年,深度强化学习(Sutton等人,1998年)已成为机器学习领域解决复杂任务的流行技术。自AI系统开发以来,在真实环境中测试其可用性一直至关重要。游戏行业对在商业游戏中利用AI以吸引更多买家抱有浓厚兴趣。随着游戏变得更加复杂和要求更高,它们也变得更具挑战性,特别是对于单人玩家而言。因此,游戏已成为评估AI系统性能的重要测试环境。

为实现游戏环境中的超人类表现,已进行了广泛研究。Mnih等人(2013年)将深度学习模型融入RL,是该领域的一项重大突破。这种方法使得AI模型能够玩Atari游戏并处理高维输入。最近在训练强化学习智能体玩围棋(Silver等人,2016年)和《星际争霸II》(Vinyals等人,2019年)等经典棋盘游戏及复杂游戏方面取得的进展,展示了深度RL的成功。

与此同时,RL也以多种方式应用于军事领域。RL可用于训练智能体在军事仿真中执行各种任务,并已应用于以下用例:

• 战场决策:RL可用于训练智能体在复杂军事场景中做出决策(Doll等人,2021年)。智能体可以根据其对环境(例如,敌方位置、地形)的观察,学习采取能最大化奖励信号(例如,完成任务目标、最小化伤亡)的行动。

• 自主系统/载具控制:RL可用于训练智能体在仿真中控制军用载具(例如,无人机、坦克)(Möbius等人,2022年)。智能体可以学习在环境中驾驶载具并执行各种任务(例如,侦察、目标捕获)。

• 后勤规划:RL可用于优化军事仿真中的后勤规划(Yan等人,2021年)。智能体可以学习将资源(例如,部队、补给)分配到战场的不同区域,以在最小化损失的同时实现任务目标。

• 网络安全:RL可用于训练智能体在军事仿真中检测和应对网络攻击(Vyas等人,2023年)。智能体可以学习识别和缓解对军事网络和系统的威胁。

• 训练与评估:RL可用于在仿真中训练和评估军事人员(Salas等人,2003年)。智能体可以模拟不同场景,并对受训人员采取的行动提供反馈。

总体而言,RL可应用于军事仿真,以加强军事人员的训练和评估,优化资源分配和决策,并提高整体军事效能。然而,使用RL训练的单位在军事仿真中可能表现得不真实,并且不完全遵循通用战术、技术与程序(TTP)或交战规则给出的约束,原因有以下几点:

• 训练数据有限:RL需要大量训练数据来学习复杂行为。然而,在军事仿真中,生成足够的训练数据以涵盖单位应表现出的全部真实行为范围可能很困难。因此,控制单位的训练后智能体可能只表现出真实行为的一个子集。

• 探索有限:RL智能体探索环境以了解不同行动的后果。然而,在军事仿真中,单位可采取的行动可能存在约束,这限制了RL智能体的探索。因此,智能体可能无法了解单位可以采取的所有可能行动,导致次优行为。

• 奖励定义不当:RL智能体通常被训练为最大化奖励信号,该信号由仿真设计者定义。如果奖励信号过于简化或未能捕捉任务的所有相关方面,训练后的单位可能表现出不真实的行为。例如,如果仅因消灭敌人而给予单位奖励,而不考虑避免伤亡或完成任务目标,训练后的单位可能会优先消灭敌人而忽视其他重要任务。

• 模型偏差:RL智能体从其训练数据中学习,如果训练数据存在偏差,智能体可能学会表现出有偏差的行为。在军事仿真中,训练数据可能偏向某些行为、策略或能力,导致训练后的单位行为不真实。

仔细设计RL训练过程非常重要,包括奖励信号、探索策略和训练数据,以解决这些问题。此外,可能需要用其他技术(例如专家知识或基于规则的系统)来补充RL,以确保训练后的单位表现出真实的行为。本文展示了将自然语言成功集成到强化学习过程中,使智能体能够实现不同目标。通过指定具体目标,限制了奖励函数中的错误,因为它可以针对给定目标进行优化。此项基础工作将改进未来的AI智能体,使其能够维护军事行动的条令和规则。

成为VIP会员查看完整内容
9

相关内容

军事防务数据板块介绍:系统化采集、存储、管理、分析与军事国防安全相关信息的专用数据板块,其核心在于整合全球新兴国防技术(军事人工智能、无人系统等)、热点案例(俄乌战争、美以伊战争)等方面的最新时讯、研究报告/论文、条令法规、案例分析,为战略研判、情报分析、决策支持等提供知识支撑。
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
25+阅读 · 4月25日
《基于自然语言的人工智能军事决策支持》
专知会员服务
153+阅读 · 2024年1月25日
「基于通信的多智能体强化学习」 进展综述
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
338+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2014年12月31日
国家自然科学基金
75+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
VIP会员
最新内容
【剑桥博士论文】智能体-环境协同优化
专知会员服务
3+阅读 · 今天14:33
为初级军官战术训练设计生成式人工智能平台
专知会员服务
5+阅读 · 今天6:43
《美军条令:作战伤员后送保障》
专知会员服务
4+阅读 · 今天6:38
《美空军条令出版物 4-0,维持》
专知会员服务
4+阅读 · 今天6:32
《基于仿真的空军任务规划优化》
专知会员服务
4+阅读 · 今天6:21
相关基金
国家自然科学基金
338+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2014年12月31日
国家自然科学基金
75+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员