We optimize finite horizon multi-agent reach-avoid Markov decision process (MDP) via \emph{local feedback policies}. The global feedback policy solution yields global optimality but its communication complexity, memory usage and computation complexity scale exponentially with the number of agents. We mitigate this exponential dependency by restricting the solution space to local feedback policies and show that local feedback policies are rank-one factorizations of global feedback policies, which provides a principled approach to reducing communication complexity and memory usage. Additionally, by demonstrating that multi-agent reach-avoid MDPs over local feedback policies has a potential game structure, we show that iterative best response is a tractable multi-agent learning scheme with guaranteed convergence to deterministic Nash equilibrium, and derive each agent's best response via multiplicative dynamic program (DP) over the joint state space. Numerical simulations across different MDPs and agent sets show that the peak memory usage and offline computation complexity are significantly reduced while the approximation error to the optimal global reach-avoid objective is maintained.


翻译:我们通过\textit{局部反馈策略}优化有限时域多智能体到达-规避马尔可夫决策过程(MDP)。全局反馈策略的解能实现全局最优性,但其通信复杂度、内存占用和计算复杂度随智能体数量呈指数增长。我们通过将解空间限制为局部反馈策略来缓解这种指数依赖,并证明局部反馈策略是全局反馈策略的秩一分解,这为降低通信复杂度和内存占用提供了有原则的方法。此外,通过证明基于局部反馈策略的多智能体到达-规避MDP具有势博弈结构,我们证明迭代最优响应是一种可处理的多智能体学习方案,且能保证收敛到确定性纳什均衡,并推导出每个智能体在联合状态空间上的乘法动态规划(DP)最优响应。不同MDP和智能体集合上的数值仿真表明,峰值内存占用和离线计算复杂度显著降低,同时保持了与全局最优到达-规避目标间的近似误差。

0
下载
关闭预览

相关内容

《多智能体大语言模型系统的可靠决策研究》
专知会员服务
41+阅读 · 2月2日
《分布式多智能体强化学习策略的可解释性研究》
专知会员服务
29+阅读 · 2025年11月17日
中文版 | 集中式与分布式多智能体AI协调策略
专知会员服务
22+阅读 · 2025年5月8日
多智能体协同决策方法研究
专知会员服务
134+阅读 · 2022年12月15日
【NeurIPS 2021】设置多智能体策略梯度的方差
专知会员服务
21+阅读 · 2021年10月24日
《多域作战环境下的军事决策过程》
专知
114+阅读 · 2023年4月12日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
16+阅读 · 2020年9月9日
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
《多智能体大语言模型系统的可靠决策研究》
专知会员服务
41+阅读 · 2月2日
《分布式多智能体强化学习策略的可解释性研究》
专知会员服务
29+阅读 · 2025年11月17日
中文版 | 集中式与分布式多智能体AI协调策略
专知会员服务
22+阅读 · 2025年5月8日
多智能体协同决策方法研究
专知会员服务
134+阅读 · 2022年12月15日
【NeurIPS 2021】设置多智能体策略梯度的方差
专知会员服务
21+阅读 · 2021年10月24日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员