Graph-based multi-agent reinforcement learning (MARL) enables coordinated behavior under partial observability by modeling agents as nodes and communication links as edges. While recent methods excel at learning sparse coordination graphs-determining who communicates with whom-they do not address what information should be transmitted under hard bandwidth constraints. We study this bandwidth-limited regime and show that naive dimensionality reduction consistently degrades coordination performance. Hard bandwidth constraints force selective encoding, but deterministic projections lack mechanisms to control how compression occurs. We introduce Bandwidth-constrained Variational Message Encoding (BVME), a lightweight module that treats messages as samples from learned Gaussian posteriors regularized via KL divergence to an uninformative prior. BVME's variational framework provides principled, tunable control over compression strength through interpretable hyperparameters, directly constraining the representations used for decision-making. Across SMACv1, SMACv2, and MPE benchmarks, BVME achieves comparable or superior performance while using 67--83% fewer message dimensions, with gains most pronounced on sparse graphs where message quality critically impacts coordination. Ablations reveal U-shaped sensitivity to bandwidth, with BVME excelling at extreme ratios while adding minimal overhead.


翻译:基于图的多智能体强化学习(MARL)通过将智能体建模为节点、通信链路建模为边,实现了部分可观测条件下的协调行为。尽管现有方法擅长学习稀疏协调图(确定谁与谁通信),但它们并未解决在严格带宽约束下应传输何种信息的问题。我们研究这种带宽受限机制,并证明简单的降维方法会持续损害协调性能。严格的带宽约束迫使选择性编码,但确定性投影缺乏控制压缩方式的机制。我们提出带宽受限变分消息编码(BVME),这是一种轻量级模块,将消息视为从学习到的高斯后验中采样的样本,并通过KL散度正则化至无信息先验。BVME的变分框架通过可解释的超参数提供原则性、可调节的压缩强度控制,直接约束用于决策的表征。在SMACv1、SMACv2和MPE基准测试中,BVME在使用减少67-83%消息维度的同时,实现了相当或更优的性能,在消息质量对协调至关重要的稀疏图上增益尤为显著。消融实验揭示了带宽的U形敏感性,BVME在极端压缩比下表现优异,同时仅增加极小的开销。

0
下载
关闭预览

相关内容

多智能体强化学习中的稳健且高效的通信
专知会员服务
25+阅读 · 2025年11月17日
《分布式多智能体强化学习策略的可解释性研究》
专知会员服务
27+阅读 · 2025年11月17日
开放环境下的协作多智能体强化学习进展综述
专知会员服务
34+阅读 · 2025年1月19日
《分布式多智能体强化学习的编码》加州大学等
专知会员服务
55+阅读 · 2022年11月2日
「基于通信的多智能体强化学习」 进展综述
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
15+阅读 · 2020年9月9日
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
当深度强化学习遇见图神经网络
专知
227+阅读 · 2019年10月21日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员