许多现代基础设施——如智慧城市、电网和交通网络——本质上是多智能体系统。在这些场景中设计有效的协调机制充满挑战,原因在于模型不确定性、可扩展性约束以及智能体间的激励不协调。本论文通过为多智能体系统开发具有可证明且可验证性能保证的可扩展、高效的学习控制算法,以应对这些挑战。研究工作分为三个主要部分。
第一部分聚焦于为网络化系统设计可扩展的控制与强化学习算法。在诸如智能电网、智能建筑和交通网络等大规模信息物理系统中,智能体通常嵌入在图形结构中,其协调依赖于本地交互和通信。由于通信约束和对可扩展性的需求,分布式控制与强化学习变得至关重要。本部分深入探讨了针对网络化系统的分布式控制与强化学习算法的基本能力及基于样本的设计。通过利用底层网络拓扑,我们证明了分布式控制器能够实现接近最优的全局性能(第二章)。此外,我们开发了兼具通信高效性与样本高效性的分布式强化学习算法,在提供理论保证的同时,也取得了强有力的实证结果(第三章)。
第二部分研究多智能体系统中的策略行为。在诸如交通、交易和能源市场等应用中,系统通常由可能因激励不协调而采取非合作行为的智能体构成。在此类场景中,目标从实现全局最优转向寻找纳什均衡。在第四章中,我们利用多智能体强化学习,开发了高效的数据驱动纳什均衡求解算法。基于"所有一阶稳定点都对应于马尔可夫势博弈中的纳什均衡"这一洞见,我们推导出基于样本的算法,能够使用梯度方法有效地计算它们。在第五章中,我们更进一步,探索旨在促进社会最优结果的均衡选择方法。我们提出了一个统一框架,系统地将多智能体强化学习的序贯结构与均衡选择相结合,使智能体能够收敛到既稳定又符合社会期望的均衡。
第三部分处理不确定环境下的鲁棒性与风险敏感性。现实世界的系统通常在模型不完美、数据有噪声和存在外部干扰的条件下运行。为确保在此类条件下的可靠性能,我们开发了鲁棒且风险敏感的强化学习算法。这包括软鲁棒马尔可夫决策过程的建模,以及具有理论收敛保证的风险感知策略优化技术。
综上所述,这些贡献共同推进了多智能体系统学习与控制的理论与实践前沿。本工作中开发的算法在一系列受现实启发的应用中得到了验证,包括机器人、智能建筑和能源管理。本论文为在日益复杂和不确定的环境中构建具有韧性、高效和协作能力的自主系统奠定了基础。