自主多智能体系统必须在动态和未知环境中高效规划、探索与导航,尤其在搜索救援和环境监测等任务中。这些场景通常具有部分可观测性、通信受限和动态目标等特点,需要智能体之间进行灵活的协调。设计能够随团队规模和任务复杂性扩展的自主性,需要能够进行高层推理、信息驱动探索和稳健去中心化执行的模块化决策系统。本论文提出了一个分层决策框架,旨在从三个互补的自主层级应对这些挑战:高层规划、自适应探索和去中心化可扩展导航。在最高层级,LLaMAR(基于语言模型的多智能体机器人长时程规划器)利用大语言模型(LLMs)将长时程任务分解为结构化的子任务,使智能体能够动态调整策略。然而,这些计划的有效执行需要环境知识。我们中层的探索策略,BaTMaN(基于赌博机的追踪监测与导航),系统性地优先考虑能最大化信息增益的路径点,同时平衡能源效率和传感器可靠性等现实约束。最后,InforMARL(信息驱动的多智能体强化学习导航)通过基于图的局部信息聚合,提供了可扩展的去中心化导航,提高了采样效率,并展示了对未见过的团队规模的迁移能力。
本文分别开发了这些模块,以解决自主架构的不同层级问题。LLaMAR 充当高层规划器,将自然语言目标转化为结构化的子任务序列,并通过“规划-执行-校正-验证”循环纳入实时修正。BaTMaN 作为中层探索引擎,引导配备传感器的智能体基于不确定性优先探索信息丰富的区域。InforMARL 在底层执行层运行,使去中心化的智能体能够利用基于图的局部信息聚合和反应式控制策略在动态环境中导航。每个模块均可独立部署,并分别针对战略推理、数据高效监测和可扩展导航等不同挑战进行了优化。当三者结合时,这三个模块为在不确定性环境下运行的多智能体系统形成了一个连贯的自主架构。