This paper addresses the critical challenge of coordinating mobile edge UAV networks to maintain robust service in highly dynamic spatiotemporal environments. Conventional Deep Reinforcement Learning (DRL) approaches often suffer from catastrophic forgetting when transitioning between distinct task scenarios, such as moving from dense urban clusters to sparse rural areas. These transitions typically necessitate computationally expensive retraining or model resets to adapt to new user distributions, leading to service interruptions. To overcome these limitations, we propose a computationally efficient Spatiotemporal Continual Learning (STCL) framework realized through a Group-Decoupled Multi-Agent Proximal Policy Optimization (G-MAPPO) algorithm. Our approach integrates a novel Group-Decoupled Policy Optimization (GDPO) mechanism that utilizes dynamic $z$-score normalization to autonomously balance heterogeneous objectives, including energy efficiency, user fairness, and coverage. This mechanism effectively mitigates gradient conflicts induced by concept drifts without requiring offline retraining. Furthermore, the framework leverages the 3D mobility of UAVs as a spatial compensation layer, enabling the swarm to autonomously adjust altitudes to accommodate extreme density fluctuations. Extensive simulations demonstrate that the proposed STCL framework achieves superior resilience, characterized by an elastic recovery of service reliability to approximately 0.95 during phase transitions. Compared to the MADDPG baseline, G-MAPPO not only prevents knowledge forgetting but also delivers an effective capacity gain of 20\% under extreme traffic loads, validating its potential as a scalable solution for edge-enabled aerial swarms.


翻译:本文针对在高度动态的时空环境中协调移动边缘无人机网络以维持鲁棒服务的关键挑战展开研究。传统的深度强化学习方法在切换不同任务场景(例如从密集城市集群转移到稀疏农村区域)时,常遭受灾难性遗忘问题。这些切换通常需要计算成本高昂的重新训练或模型重置以适应新的用户分布,从而导致服务中断。为克服这些限制,我们提出了一种通过组解耦多智能体近端策略优化算法实现的计算高效的时空持续学习框架。我们的方法集成了一种新颖的组解耦策略优化机制,该机制利用动态$z$-分数归一化来自主平衡异构目标,包括能效、用户公平性和覆盖范围。此机制有效缓解了由概念漂移引起的梯度冲突,且无需离线重新训练。此外,该框架利用无人机的三维移动性作为空间补偿层,使集群能够自主调整高度以适应极端的密度波动。大量仿真实验表明,所提出的时空持续学习框架实现了卓越的弹性,其特点是在阶段转换期间服务可靠性可弹性恢复至约0.95。与MADDPG基线相比,G-MAPPO不仅防止了知识遗忘,而且在极端流量负载下实现了20%的有效容量增益,验证了其作为支持边缘的空中集群可扩展解决方案的潜力。

0
下载
关闭预览

相关内容

《抗干扰协同无人机中继网络的多智能体深度强化学习》
专知会员服务
25+阅读 · 2025年12月31日
《无人机辅助的天空地一体化网络:学习算法技术综述》
无人机空地网络研究综述
专知会员服务
49+阅读 · 2024年5月19日
《用于空战机动的分层多智能体强化学习》
专知会员服务
66+阅读 · 2023年10月5日
移动边缘网络中联邦学习效率优化综述
专知会员服务
49+阅读 · 2022年7月9日
联邦学习或将助力IoT走出“数据孤岛”?
中国计算机学会
20+阅读 · 2019年3月16日
迁移自适应学习最新综述,附21页论文下载
【边缘智能】边缘计算驱动的深度学习加速技术
产业智能官
20+阅读 · 2019年2月8日
迁移学习之Domain Adaptation
全球人工智能
18+阅读 · 2018年4月11日
国家自然科学基金
32+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
国家自然科学基金
27+阅读 · 2011年12月31日
VIP会员
相关基金
国家自然科学基金
32+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
国家自然科学基金
27+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员