许多现代基础设施——如智慧城市、电网和交通网络——本质上是多智能体系统。在这些场景中设计有效的协调机制充满挑战,原因在于模型不确定性、可扩展性约束以及智能体间的激励不协调。本论文通过为多智能体系统开发具有可证明且可验证性能保证的可扩展、高效的学习控制算法,以应对这些挑战。研究工作分为三个主要部分。

第一部分聚焦于为网络化系统设计可扩展的控制与强化学习算法。在诸如智能电网、智能建筑和交通网络等大规模信息物理系统中,智能体通常嵌入在图形结构中,其协调依赖于本地交互和通信。由于通信约束和对可扩展性的需求,分布式控制与强化学习变得至关重要。本部分深入探讨了针对网络化系统的分布式控制与强化学习算法的基本能力及基于样本的设计。通过利用底层网络拓扑,我们证明了分布式控制器能够实现接近最优的全局性能(第二章)。此外,我们开发了兼具通信高效性与样本高效性的分布式强化学习算法,在提供理论保证的同时,也取得了强有力的实证结果(第三章)。

第二部分研究多智能体系统中的策略行为。在诸如交通、交易和能源市场等应用中,系统通常由可能因激励不协调而采取非合作行为的智能体构成。在此类场景中,目标从实现全局最优转向寻找纳什均衡。在第四章中,我们利用多智能体强化学习,开发了高效的数据驱动纳什均衡求解算法。基于"所有一阶稳定点都对应于马尔可夫势博弈中的纳什均衡"这一洞见,我们推导出基于样本的算法,能够使用梯度方法有效地计算它们。在第五章中,我们更进一步,探索旨在促进社会最优结果的均衡选择方法。我们提出了一个统一框架,系统地将多智能体强化学习的序贯结构与均衡选择相结合,使智能体能够收敛到既稳定又符合社会期望的均衡。

第三部分处理不确定环境下的鲁棒性与风险敏感性。现实世界的系统通常在模型不完美、数据有噪声和存在外部干扰的条件下运行。为确保在此类条件下的可靠性能,我们开发了鲁棒且风险敏感的强化学习算法。这包括软鲁棒马尔可夫决策过程的建模,以及具有理论收敛保证的风险感知策略优化技术。

综上所述,这些贡献共同推进了多智能体系统学习与控制的理论与实践前沿。本工作中开发的算法在一系列受现实启发的应用中得到了验证,包括机器人、智能建筑和能源管理。本论文为在日益复杂和不确定的环境中构建具有韧性、高效和协作能力的自主系统奠定了基础。

成为VIP会员查看完整内容
7

相关内容

军事防务数据板块介绍:系统化采集、存储、管理、分析与军事国防安全相关信息的专用数据板块,其核心在于整合全球新兴国防技术(军事人工智能、无人系统等)、热点案例(俄乌战争、美以伊战争)等方面的最新时讯、研究报告/论文、条令法规、案例分析,为战略研判、情报分析、决策支持等提供知识支撑。
《多智能体大语言模型系统的可靠决策研究》
专知会员服务
40+阅读 · 2月2日
《多智能体强化学习中的机制设计优化研究》103页
专知会员服务
32+阅读 · 2025年5月31日
《多智能体强化学习中机制设计的优化》103页
专知会员服务
30+阅读 · 2025年5月3日
《多智能体合作强化学习中的通信》139页
专知会员服务
45+阅读 · 2025年2月17日
经典书《斯坦福大学-多智能体系统》532页pdf
新书推荐《推荐系统进展:方法与技术》
LibRec智能推荐
13+阅读 · 2019年3月18日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
Arxiv
0+阅读 · 4月28日
Arxiv
0+阅读 · 4月7日
VIP会员
最新内容
世界动作模型: 具身AI的下一个前沿
专知会员服务
0+阅读 · 今天12:28
全球十大防空反导系统:列表、射程与用途
专知会员服务
10+阅读 · 今天3:53
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员