This paper addresses catastrophic forgetting in mobile edge UAV networks within dynamic spatiotemporal environments. Conventional deep reinforcement learning often fails during task transitions, necessitating costly retraining to adapt to new user distributions. We propose the spatiotemporal continual learning (STCL) framework, realized through the group-decoupled multi-agent proximal policy optimization (G-MAPPO) algorithm. The core innovation lies in the integration of a group-decoupled policy optimization (GDPO) mechanism with a gradient orthogonalization layer to balance heterogeneous objectives including energy efficiency, user fairness, and coverage. This combination employs dynamic z-score normalization and gradient projection to mitigate conflicts without offline resets. Furthermore, 3D UAV mobility serves as a spatial compensation layer to manage extreme density shifts. Simulations demonstrate that the STCL framework ensures resilience, with service reliability recovering to over 0.9 for moderate loads of up to 100 users. Even under extreme saturation with 140 users, G-MAPPO maintains a significant performance lead over the multi-agent deep deterministic policy gradient (MADDPG) baseline by preventing policy stagnation. The algorithm delivers an effective capacity gain of 20 percent under high traffic loads, validating its potential for scalable aerial edge swarms.


翻译:本文针对动态时空环境下移动边缘无人机网络中灾难性遗忘问题展开研究。传统深度强化学习在任务转换时经常失效,需要昂贵的重新训练来适应新的用户分布。我们提出时空连续学习(STCL)框架,通过群解耦多智能体近端策略优化(G-MAPPO)算法实现。核心创新在于将群解耦策略优化(GDPO)机制与梯度正交化层相结合,以平衡包括能量效率、用户公平性和覆盖率在内的异构目标。该组合采用动态z分数归一化和梯度投影来缓解冲突,无需离线重置。此外,3D无人机移动性作为空间补偿层,用于管理极端密度变化。仿真表明,STCL框架确保弹性恢复能力,在负载适中(最多100个用户)时服务可靠性恢复至0.9以上。即使在140个用户的极端饱和状态下,G-MAPPO通过防止策略停滞,相比多智能体深度确定性策略梯度(MADDPG)基线保持显著性能优势。该算法在高流量负载下实现有效容量增益20%,验证了其在大规模空中边缘机群中的可扩展潜力。

0
下载
关闭预览

相关内容

《抗干扰协同无人机中继网络的多智能体深度强化学习》
专知会员服务
28+阅读 · 2025年12月31日
《无人机辅助的天空地一体化网络:学习算法技术综述》
【Nature machine intelligence】闭型连续时间神经网络
专知会员服务
30+阅读 · 2022年11月17日
【NeurIPS2022】SparCL:边缘稀疏持续学习
专知会员服务
24+阅读 · 2022年9月22日
移动边缘网络中联邦学习效率优化综述
专知会员服务
50+阅读 · 2022年7月9日
【Uber AI新论文】持续元学习,Learning to Continually Learn
专知会员服务
37+阅读 · 2020年2月27日
【泡泡点云时空】PointConv: 3D点云的深度卷积网络
泡泡机器人SLAM
23+阅读 · 2019年6月12日
【边缘智能】边缘计算驱动的深度学习加速技术
产业智能官
20+阅读 · 2019年2月8日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
国家自然科学基金
29+阅读 · 2011年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
国家自然科学基金
29+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员