IoT networks often face conflicting routing goals such as maximizing packet delivery, minimizing delay, and conserving limited battery energy. These priorities can also change dynamically: for example, an emergency alert requires high reliability, while routine monitoring prioritizes energy efficiency to prolong network lifetime. Existing works, including many deep reinforcement learning approaches, are typically centralized and assume static objectives, making them slow to adapt when preferences shift. We propose a dynamic and fully distributed multi-objective Q-learning routing algorithm that learns multiple per-preference Q-tables in parallel and introduces a novel greedy interpolation policy to act near-optimally for unseen preferences without retraining or central coordination. A theoretical analysis further shows that the optimal value function is Lipschitz-continuous in the preference parameter, ensuring that the proposed greedy interpolation policy yields provably near-optimal behavior. Simulations show that our approach adapts in real time to shifting priorities and achieves up to 80-90\% lower energy consumption and more than 2-5x higher cumulative rewards and packet delivery compared to six baseline protocols, under dynamic and distributed settings. Sensitivity analysis across varying preference window lengths confirms that the proposed DPQ framework consistently achieves higher composite reward than all baseline methods, demonstrating robustness to changes in operating conditions.


翻译:物联网网络常面临相互冲突的路由目标,例如最大化数据包投递率、最小化延迟以及节约有限的电池能量。这些优先级也可能动态变化:例如,紧急警报需要高可靠性,而常规监测则优先考虑能源效率以延长网络寿命。现有研究(包括许多深度强化学习方法)通常是集中式的,并假设静态目标,导致其在偏好变化时适应缓慢。我们提出了一种动态且完全分布式的多目标Q学习路由算法,该算法并行学习多个针对不同偏好的Q表,并引入一种新颖的贪婪插值策略,使其能够针对未见过的偏好实现近乎最优的行为,而无需重新训练或中央协调。理论分析进一步表明,最优值函数在偏好参数上是Lipschitz连续的,这确保了所提出的贪婪插值策略可产生可证明的近乎最优行为。仿真结果表明,我们的方法能够实时适应优先级变化,在动态分布式环境下,与六种基线协议相比,能耗降低高达80-90%,累积奖励和数据包投递率提高超过2-5倍。对不同偏好窗口长度的敏感性分析证实,所提出的DPQ框架始终比所有基线方法获得更高的复合奖励,表明其对运行条件变化具有鲁棒性。

0
下载
关闭预览

相关内容

《国防和安全系统中的物联网 (IoT): 文献综述》
专知会员服务
32+阅读 · 2023年11月22日
物联网时代分布式深度学习新方向
专知会员服务
55+阅读 · 2020年8月30日
最新《动态网络嵌入》综述论文,25页pdf
专知
37+阅读 · 2020年6月17日
联邦学习或将助力IoT走出“数据孤岛”?
中国计算机学会
20+阅读 · 2019年3月16日
我所了解的物联网设备测试方法(硬件篇)
FreeBuf
12+阅读 · 2019年2月12日
【物联网】物联网产业现状与技术发展
产业智能官
15+阅读 · 2018年12月17日
网络表示学习介绍
人工智能前沿讲习班
18+阅读 · 2018年11月26日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关VIP内容
《国防和安全系统中的物联网 (IoT): 文献综述》
专知会员服务
32+阅读 · 2023年11月22日
物联网时代分布式深度学习新方向
专知会员服务
55+阅读 · 2020年8月30日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员