Bayesian Ego-graph Inference for Networked Multi-Agent Reinforcement Learning - 专知论文

会员服务 ·

0

贝叶斯 · 推断 · 智能体 · 邻域 · 变分 ·

Bayesian Ego-graph Inference for Networked Multi-Agent Reinforcement Learning

翻译：基于贝叶斯自我图推断的网络化多智能体强化学习

Wei Duan,Jie Lu,Junyu Xuan

from arxiv, Accepted at NeurIPS 2025. Correction to ELBO Derivation (Equations 33 and Final Objective). https://openreview.net/forum?id=3qeTs05bRL

In networked multi-agent reinforcement learning (Networked-MARL), decentralized agents must act under local observability and constrained communication over fixed physical graphs. Existing methods often assume static neighborhoods, limiting adaptability to dynamic or heterogeneous environments. While centralized frameworks can learn dynamic graphs, their reliance on global state access and centralized infrastructure is impractical in real-world decentralized systems. We propose a stochastic graph-based policy for Networked-MARL, where each agent conditions its decision on a sampled subgraph over its local physical neighborhood. Building on this formulation, we introduce BayesG, a decentralized actor-framework that learns sparse, context-aware interaction structures via Bayesian variational inference. Each agent operates over an ego-graph and samples a latent communication mask to guide message passing and policy computation. The variational distribution is trained end-to-end alongside the policy using an evidence lower bound (ELBO) objective, enabling agents to jointly learn both interaction topology and decision-making strategies. BayesG outperforms strong MARL baselines on large-scale traffic control tasks with up to 167 agents, demonstrating superior scalability, efficiency, and performance.

翻译：在网络化多智能体强化学习（Networked-MARL）中，分散的智能体必须在局部可观测性以及固定物理图上的受限通信条件下进行决策。现有方法通常假设邻域是静态的，这限制了其对动态或异构环境的适应能力。虽然集中式框架可以学习动态图，但它们对全局状态访问和集中式基础设施的依赖在实际的分散式系统中并不实用。我们提出了一种基于随机图的策略用于Networked-MARL，其中每个智能体根据其局部物理邻域上采样的子图来条件化其决策。基于此框架，我们引入了BayesG，一种分散式的行动者框架，它通过贝叶斯变分推断学习稀疏的、上下文感知的交互结构。每个智能体在一个自我图上运行，并采样一个潜在的通信掩码来指导消息传递和策略计算。变分分布与策略一起通过证据下界（ELBO）目标进行端到端训练，使智能体能够共同学习交互拓扑和决策策略。在涉及多达167个智能体的大规模交通控制任务中，BayesG优于强大的MARL基线，展现出卓越的可扩展性、效率和性能。

0

相关内容

贝叶斯

多智能体强化学习中的稳健且高效的通信

多智能体强化学习中的稳健且高效的通信

专知会员服务

25+阅读 · 2025年11月17日

《分布式多智能体强化学习策略的可解释性研究》

《分布式多智能体强化学习策略的可解释性研究》

专知会员服务

28+阅读 · 2025年11月17日

【NeurIPS 2024】通过等变性提升多智能体强化学习中的样本效率和泛化能力

【NeurIPS 2024】通过等变性提升多智能体强化学习中的样本效率和泛化能力

专知会员服务

19+阅读 · 2024年10月6日

自动驾驶中的多智能体强化学习综述

自动驾驶中的多智能体强化学习综述

专知会员服务

47+阅读 · 2024年8月20日

《注意力驱动的多智能体强化学习：利用专业知识强化任务决策》

《注意力驱动的多智能体强化学习：利用专业知识强化任务决策》

专知会员服务

56+阅读 · 2024年8月3日

《通过场景独立表征实现多智能体迁移强化学习》2024最新论文

《通过场景独立表征实现多智能体迁移强化学习》2024最新论文

专知会员服务

42+阅读 · 2024年2月28日

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

专知会员服务

72+阅读 · 2024年1月13日

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

专知会员服务

119+阅读 · 2022年5月7日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知会员服务

184+阅读 · 2022年4月30日

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

专知会员服务

26+阅读 · 2019年10月3日

博弈论视角下的多智能体强化学习综述,129页pdf与76页Slides

博弈论视角下的多智能体强化学习综述,129页pdf与76页Slides

专知

11+阅读 · 2022年11月26日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

32+阅读 · 2022年11月12日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

综述| 当图神经网络遇上强化学习

综述| 当图神经网络遇上强化学习

图与推荐

35+阅读 · 2022年7月1日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知

60+阅读 · 2022年4月30日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

16+阅读 · 2020年9月9日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

当深度强化学习遇见图神经网络

当深度强化学习遇见图神经网络

专知

227+阅读 · 2019年10月21日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

多层动态网络的建模、群体动力学分析与控制

国家自然科学基金

3+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

面向海量高维数据的可深度结合的贝叶斯网学习与推理新方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

复杂非完整多自主体网络协同算法设计与性能极限分析

国家自然科学基金

1+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

Hierarchical Lead Critic based Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月25日

Puzzle it Out: Local-to-Global World Model for Offline Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月19日

Safe Continuous-time Multi-Agent Reinforcement Learning via Epigraph Form

Arxiv

0+阅读 · 2月19日

Fluid-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月16日

Multi-Agent Model-Based Reinforcement Learning with Joint State-Action Learned Embeddings

Arxiv

0+阅读 · 2月13日

Learning to Coordinate via Quantum Entanglement in Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月11日

Rollout-Training Co-Design for Efficient LLM-Based Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月10日

Learning to Coordinate via Quantum Entanglement in Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月9日

Bandwidth-constrained Variational Message Encoding for Cooperative Multi-agent Reinforcement Learning

Arxiv

0+阅读 · 2月4日

Multi-Agent Reinforcement Learning: Methods, Applications, Visionary Prospects, and Challenges

Arxiv

19+阅读 · 2023年5月17日

VIP会员

文章信息

相关主题

最新内容

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

1+阅读 · 今天15:13

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

1+阅读 · 今天15:08

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

1+阅读 · 今天15:06

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

2+阅读 · 今天14:53

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

2+阅读 · 今天14:51

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

3+阅读 · 今天14:47

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

3+阅读 · 今天14:42

“史诗怒火行动”中美军损失的作战飞机

“史诗怒火行动”中美军损失的作战飞机

专知会员服务

2+阅读 · 今天14:38

ICML 2026 | 理解上下文持续学习中的泛化与遗忘

ICML 2026 | 理解上下文持续学习中的泛化与遗忘

专知会员服务

5+阅读 · 5月28日

Agent Harness综述：大模型智能体执行器工程全景

Agent Harness综述：大模型智能体执行器工程全景

专知会员服务

13+阅读 · 5月28日

审视现代战争中的 AI 赋能杀伤链系统及印度防务的战略要务（中文版）

审视现代战争中的 AI 赋能杀伤链系统及印度防务的战略要务（中文版）

专知会员服务

14+阅读 · 5月28日

分布式作战效能：乌克兰如何在战术层面重新定义火力打击、电子战与防空（中文版）

分布式作战效能：乌克兰如何在战术层面重新定义火力打击、电子战与防空（中文版）

专知会员服务

9+阅读 · 5月28日

马赛克防御与分布式指挥：伊朗的回击（中文版）

马赛克防御与分布式指挥：伊朗的回击（中文版）

专知会员服务

10+阅读 · 5月28日

《基于理论的威慑效能评估》

《基于理论的威慑效能评估》

专知会员服务

8+阅读 · 5月28日

《移动旅级战斗队转型中的支援单元指挥控制挑战》

《移动旅级战斗队转型中的支援单元指挥控制挑战》

专知会员服务

15+阅读 · 5月27日

相关VIP内容

多智能体强化学习中的稳健且高效的通信

多智能体强化学习中的稳健且高效的通信

专知会员服务

25+阅读 · 2025年11月17日

《分布式多智能体强化学习策略的可解释性研究》

《分布式多智能体强化学习策略的可解释性研究》

专知会员服务

28+阅读 · 2025年11月17日

【NeurIPS 2024】通过等变性提升多智能体强化学习中的样本效率和泛化能力

【NeurIPS 2024】通过等变性提升多智能体强化学习中的样本效率和泛化能力

专知会员服务

19+阅读 · 2024年10月6日

自动驾驶中的多智能体强化学习综述

自动驾驶中的多智能体强化学习综述

专知会员服务

47+阅读 · 2024年8月20日

《注意力驱动的多智能体强化学习：利用专业知识强化任务决策》

《注意力驱动的多智能体强化学习：利用专业知识强化任务决策》

专知会员服务

56+阅读 · 2024年8月3日

《通过场景独立表征实现多智能体迁移强化学习》2024最新论文

《通过场景独立表征实现多智能体迁移强化学习》2024最新论文

专知会员服务

42+阅读 · 2024年2月28日

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

专知会员服务

72+阅读 · 2024年1月13日

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

专知会员服务

119+阅读 · 2022年5月7日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知会员服务

184+阅读 · 2022年4月30日

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

专知会员服务

26+阅读 · 2019年10月3日

热门VIP内容

开通专知VIP会员享更多权益服务

AutoScientists：自组织智能体团队驱动长期科学实验

战略前沿人工智能的再思考（中文）

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

相关资讯

博弈论视角下的多智能体强化学习综述,129页pdf与76页Slides

博弈论视角下的多智能体强化学习综述,129页pdf与76页Slides

专知

11+阅读 · 2022年11月26日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

32+阅读 · 2022年11月12日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

综述| 当图神经网络遇上强化学习

综述| 当图神经网络遇上强化学习

图与推荐

35+阅读 · 2022年7月1日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知

60+阅读 · 2022年4月30日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

16+阅读 · 2020年9月9日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

当深度强化学习遇见图神经网络

当深度强化学习遇见图神经网络

专知

227+阅读 · 2019年10月21日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

Hierarchical Lead Critic based Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月25日

Puzzle it Out: Local-to-Global World Model for Offline Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月19日

Safe Continuous-time Multi-Agent Reinforcement Learning via Epigraph Form

Arxiv

0+阅读 · 2月19日

Fluid-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月16日

Multi-Agent Model-Based Reinforcement Learning with Joint State-Action Learned Embeddings

Arxiv

0+阅读 · 2月13日

Learning to Coordinate via Quantum Entanglement in Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月11日

Rollout-Training Co-Design for Efficient LLM-Based Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月10日

Learning to Coordinate via Quantum Entanglement in Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月9日

Bandwidth-constrained Variational Message Encoding for Cooperative Multi-agent Reinforcement Learning

Arxiv

0+阅读 · 2月4日

Multi-Agent Reinforcement Learning: Methods, Applications, Visionary Prospects, and Challenges

Arxiv

19+阅读 · 2023年5月17日

相关基金

多层动态网络的建模、群体动力学分析与控制

国家自然科学基金

3+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

面向海量高维数据的可深度结合的贝叶斯网学习与推理新方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

复杂非完整多自主体网络协同算法设计与性能极限分析

国家自然科学基金

1+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员