《通过自然语言与强化学习奖励机制将军事条令与目标融入AI智能体》

本文强调在生成逼真军事仿真时整合合理的战术行为，这包括定义战斗战术、条令、交战规则和作战概念。强化学习（RL）的最新进展使得RL智能体能够生成广泛的战术行动。本文使用一个多智能体地面战斗场景来演示机器学习（ML）应用如何在遵循给定目标的同时生成策略并下达命令。使用自然语言来下达条令和目标，以改善人类顾问与ML智能体之间的沟通。这使我们能够将目标和现有条令嵌入人工智能（AI）的推理过程中。该研究展示了成功集成自然语言使智能体能够实现不同目标。此项基础工作将增强RL智能体未来维护军事行动条令和规则的能力。

过去几年，深度强化学习（Sutton等人，1998年）已成为机器学习领域解决复杂任务的流行技术。自AI系统开发以来，在真实环境中测试其可用性一直至关重要。游戏行业对在商业游戏中利用AI以吸引更多买家抱有浓厚兴趣。随着游戏变得更加复杂和要求更高，它们也变得更具挑战性，特别是对于单人玩家而言。因此，游戏已成为评估AI系统性能的重要测试环境。

为实现游戏环境中的超人类表现，已进行了广泛研究。Mnih等人（2013年）将深度学习模型融入RL，是该领域的一项重大突破。这种方法使得AI模型能够玩Atari游戏并处理高维输入。最近在训练强化学习智能体玩围棋（Silver等人，2016年）和《星际争霸II》（Vinyals等人，2019年）等经典棋盘游戏及复杂游戏方面取得的进展，展示了深度RL的成功。

与此同时，RL也以多种方式应用于军事领域。RL可用于训练智能体在军事仿真中执行各种任务，并已应用于以下用例：

• 战场决策：RL可用于训练智能体在复杂军事场景中做出决策（Doll等人，2021年）。智能体可以根据其对环境（例如，敌方位置、地形）的观察，学习采取能最大化奖励信号（例如，完成任务目标、最小化伤亡）的行动。

• 自主系统/载具控制：RL可用于训练智能体在仿真中控制军用载具（例如，无人机、坦克）（Möbius等人，2022年）。智能体可以学习在环境中驾驶载具并执行各种任务（例如，侦察、目标捕获）。

• 后勤规划：RL可用于优化军事仿真中的后勤规划（Yan等人，2021年）。智能体可以学习将资源（例如，部队、补给）分配到战场的不同区域，以在最小化损失的同时实现任务目标。

• 网络安全：RL可用于训练智能体在军事仿真中检测和应对网络攻击（Vyas等人，2023年）。智能体可以学习识别和缓解对军事网络和系统的威胁。

• 训练与评估：RL可用于在仿真中训练和评估军事人员（Salas等人，2003年）。智能体可以模拟不同场景，并对受训人员采取的行动提供反馈。

总体而言，RL可应用于军事仿真，以加强军事人员的训练和评估，优化资源分配和决策，并提高整体军事效能。然而，使用RL训练的单位在军事仿真中可能表现得不真实，并且不完全遵循通用战术、技术与程序（TTP）或交战规则给出的约束，原因有以下几点：

• 训练数据有限：RL需要大量训练数据来学习复杂行为。然而，在军事仿真中，生成足够的训练数据以涵盖单位应表现出的全部真实行为范围可能很困难。因此，控制单位的训练后智能体可能只表现出真实行为的一个子集。

• 探索有限：RL智能体探索环境以了解不同行动的后果。然而，在军事仿真中，单位可采取的行动可能存在约束，这限制了RL智能体的探索。因此，智能体可能无法了解单位可以采取的所有可能行动，导致次优行为。

• 奖励定义不当：RL智能体通常被训练为最大化奖励信号，该信号由仿真设计者定义。如果奖励信号过于简化或未能捕捉任务的所有相关方面，训练后的单位可能表现出不真实的行为。例如，如果仅因消灭敌人而给予单位奖励，而不考虑避免伤亡或完成任务目标，训练后的单位可能会优先消灭敌人而忽视其他重要任务。

• 模型偏差：RL智能体从其训练数据中学习，如果训练数据存在偏差，智能体可能学会表现出有偏差的行为。在军事仿真中，训练数据可能偏向某些行为、策略或能力，导致训练后的单位行为不真实。

仔细设计RL训练过程非常重要，包括奖励信号、探索策略和训练数据，以解决这些问题。此外，可能需要用其他技术（例如专家知识或基于规则的系统）来补充RL，以确保训练后的单位表现出真实的行为。本文展示了将自然语言成功集成到强化学习过程中，使智能体能够实现不同目标。通过指定具体目标，限制了奖励函数中的错误，因为它可以针对给定目标进行优化。此项基础工作将改进未来的AI智能体，使其能够维护军事行动的条令和规则。

成为VIP会员查看完整内容