多智能体系统中的强化学习(RL)是一个重要且快速发展的领域,其应用广泛。单智能体RL方法已在低维和高维状态空间中被证明有效,例如游戏博弈[37, 87]、机器人学[53, 26]以及需要探索的复杂优化问题[52, 56, 73]。多智能体强化学习(MARL)则面临若干额外挑战,包括多智能体信用分配、维度灾难、非平稳学习动态,以及当每个智能体接收私有观测时的部分可观测性[29]。尽管存在这些困难,许多应用本身受益于多个协调的智能体。
分布式MARL提供了一种可扩展且实用的协调方法,其中每个智能体仅基于局部观测和从其他智能体接收的通信来执行其自身的策略。有效的分布式学习通常依赖于一致且可靠的通信。然而,在现实场景中,例如在偏远环境中操作的机器人团队,通信信道往往是稀疏的、不可靠的或带宽受限的。
本文旨在探索使分布式智能体在有限通信条件下有效学习的方法。具体而言,扩展了一类利用集中式训练与分布式执行的分布式MARL算法,以推算缺失的通信,从而使分布式阶段能够持续学习。这是通过为智能体配备联合观测的生成模型或从队友那里学习到的消息编码器来实现的。本文引入了一种新颖的选择性采样方法,该方法通过一种称为“通信优势”的新反事实度量,明确地平衡了消息传递与基于模型的推断。该价值被证明可线性逼近相关的全局优势,实验结果表明,与集中式基线相比,该方法能在不牺牲任务性能的前提下有效减少通信开销。此外,本文对集中化技术进行了全面的研究和实证分析,阐明了它们在流行的离策略MARL算法和环境中的影响。最终,本研究为在资源受限环境中提高MARL的可扩展性和适用性提供了实用的方法和见解。
本文的其余部分组织如下: