We address real-time sampling and estimation of autoregressive Markovian sources in dynamic yet structurally similar multi-hop wireless networks. Each node caches samples from others and communicates over wireless collision channels, aiming to minimize time-average estimation error via decentralized policies. Due to the high dimensionality of action spaces and complexity of network topologies, deriving optimal policies analytically is intractable. To address this, we propose a graphical multi-agent reinforcement learning framework for policy optimization. Theoretically, we demonstrate that our proposed policies are transferable, allowing a policy trained on one graph to be effectively applied to structurally similar graphs. Numerical experiments demonstrate that (i) our proposed policy outperforms state-of-the-art baselines; (ii) the trained policies are transferable to larger networks, with performance gains increasing with the number of agents; (iii) the graphical training procedure withstands non-stationarity, even when using independent learning techniques; and (iv) recurrence is pivotal in both independent learning and centralized training and decentralized execution, and improves the resilience to non-stationarity.


翻译:本文研究动态但结构相似的多跳无线网络中自回归马尔可夫源的实时采样与估计问题。每个节点缓存来自其他节点的样本,并通过无线碰撞信道进行通信,旨在通过去中心化策略最小化时间平均估计误差。由于动作空间的高维性和网络拓扑的复杂性,解析推导最优策略是不可行的。为此,我们提出了一种用于策略优化的图多智能体强化学习框架。理论上,我们证明了所提策略具有可迁移性,允许在一个图上训练的策略有效应用于结构相似的图。数值实验表明:(i)所提策略优于现有先进基线方法;(ii)训练所得策略可迁移至更大规模网络,且性能增益随智能体数量增加而提升;(iii)图训练过程能够承受非平稳性,即使在使用独立学习技术时亦然;(iv)循环机制在独立学习与集中训练分散执行中均至关重要,并能提升对非平稳性的鲁棒性。

0
下载
关闭预览

相关内容

【NeurIPS2023】强化学习中的概率推理:正确的方法
专知会员服务
28+阅读 · 2023年11月25日
基于图神经网络的小样本学习方法研究进展
专知会员服务
44+阅读 · 2023年11月18日
基于图神经网络的推荐算法总结
机器学习与推荐算法
25+阅读 · 2021年9月30日
论文浅尝 | 基于知识图谱中图卷积神经网络的推荐系统
开放知识图谱
67+阅读 · 2019年8月27日
图神经网络综述:方法及应用 | Deep Reading
AI100
36+阅读 · 2019年3月17日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关VIP内容
【NeurIPS2023】强化学习中的概率推理:正确的方法
专知会员服务
28+阅读 · 2023年11月25日
基于图神经网络的小样本学习方法研究进展
专知会员服务
44+阅读 · 2023年11月18日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员