【剑桥博士论文】智能体-环境协同优化

多智能体系统为解决空间分布式任务提供了一种极具吸引力的解决方案，并在包括交通、制造和农业在内的现实工业中得到了广泛应用。控制多智能体系统的一个根本挑战是在无碰撞的情况下将智能体从初始位置导航至指定目标，这一问题通常被称为安全多智能体导航。多智能体系统及其周围环境构成了安全多智能体导航中两个至关重要的组成部分，因为一方的行为本质上会影响另一方。传统方法侧重于为多智能体系统开发有效的导航算法，同时将环境视为智能体必须绕过的固定空间约束。尽管环境结构和障碍物对智能体行为有着明显的影响，但目前仍缺乏将环境作为提高多智能体系统性能的一种手段的系统性研究。本论文的旨在明确环境在安全多智能体导航中的作用，并建立一个共生的智能体-环境协同演化系统，以提高导航性能并增强智能体的安全性。我们将从三个视角推进这一目标，这三个视角也构成了本论文的三个主要部分：第一部分重点在于使多智能体策略适应其随时间变化的周围环境，以提高导航性能。首先，我们引入了在线控制障碍函数 (CBFs)，该函数利用图神经网络 (GNNs) 根据周围环境来调整 CBF 超参数。这使得基于 CBF 的控制器能够进行实时调整，并允许在导航过程中对智能体保守或激进的行为进行调节。其次，我们开发了基于在线探索的控制李雅普诺夫障碍函数 (OE-CLBFs)，该函数基于实时激光雷达 (LiDAR) 读数使用支持向量机 (SVMs) 估计周围环境，并利用这些估计值公式化一个基于 CBF 的控制器，用于未知环境中的多智能体导航。在线 CBFs 和 OE-CLBFs 在提升导航性能的同时，均提供了形式化的安全保证。第二部分重点在于针对多智能体系统优化环境配置，以提高导航性能。首先，我们提出了一个新颖的环境优化问题，该问题将环境的障碍物布局作为决策变量，以追求智能体效益。我们通过采用学习架构对环境优化策略进行参数化，并利用强化学习 (RL) 以无模型 (model-free) 的方式进行训练来求解该问题。其次，我们将智能体优先级纳入考量，并对环境优化问题施加实际约束。前者代表了个体智能体的重要性，而后者对应于现实世界中对环境改变的限制。我们将原对偶机制与 RL 框架相结合，以处理约束并在概率层面提供约束保证。对于无优先级和有优先级的环境优化，我们均进行了完备性分析，以确定在何种条件下环境的改变能够保证多智能体导航的完备性（即所有智能体均到达目标）。第三部分重点在于协同优化多智能体策略与环境配置，以联合提升导航性能。首先，我们提出了一个新颖的智能体-环境协同优化问题，在系统级优化框架中将智能体动作和障碍物布局同时作为决策变量。我们开发了一种协调方法，交替使用 RL 优化智能体策略，并使用无监督学习优化环境配置。该方法利用策略梯度在协调框架内实现无模型训练，同时我们提供了收敛性分析以解释其行为。其次，我们将智能体-环境协同优化构建为一个双层问题 (bi-level problem)，其中上层的环境优化子问题建立在下层的轨迹优化子问题之上。随后，我们开发了一种可微优化方法以提供基于模型的解决方案。它利用 Karush-Kuhn-Tucker (KKT) 条件和隐函数定理 (IFT) 对智能体行为与环境配置之间的关系进行微分，这通过显式梯度建立了两个子问题之间的联系，并允许利用基于梯度的更新高效求解该双层问题。本论文开发了新颖的方法以实现多智能体策略与环境配置之间的协同适应。它探索了环境、智能体和导航性能之间的内在联系，最终建立了一个共生的智能体-环境系统。我们通过数值仿真和真实世界实验验证了所提出方法的有效性。结果表明，“成型良好”的环境可以提供“积极的”引导，以促进多智能体导航并化解密集智能体之间的冲突，而不是仅仅作为“消极的”空间约束。这些发现为推动未来向智能体-环境协同优化方向的研究奠定了基础。