In the era of 6G Air-Ground Integrated Networks (AGINs), Unmanned Aerial Vehicles (UAVs) are pivotal for providing on-demand wireless coverage in mission-critical environments, such as post-disaster rescue operations. However, traditional Deep Reinforcement Learning (DRL) approaches for multi-UAV orchestration often face critical challenges: instability due to the non-stationarity of multi-agent environments and the difficulty of balancing energy efficiency with service equity. To address these issues, this paper proposes ORCHID (Orchestration of Resilient Coverage via Hybrid Intelligent Deployment), a novel stability-enhanced two-stage learning framework. First, ORCHID leverages a GBS-aware topology partitioning strategy to mitigate the exploration cold-start problem. Second, we introduce a Reset-and-Finetune (R\&F) mechanism within the MAPPO architecture that stabilizes the learning process via synchronized learning rate decay and optimizer state resetting. This mechanism effectively suppresses gradient variance to prevent policy degradation, thereby ensuring algorithmic resilience in dynamic environments. Furthermore, we uncover a counter-intuitive efficiency-fairness synergy: contrary to the conventional trade-off, our results demonstrate that the proposed Max-Min Fairness (MMF) design not only guarantees service for cell-edge users but also achieves superior energy efficiency compared to Proportional Fairness (PF), which tends to converge to suboptimal greedy equilibria. Extensive experiments confirm that ORCHID occupies a superior Pareto-dominant position compared to state-of-the-art baselines, ensuring robust convergence and resilient connectivity in mission-critical scenarios.


翻译:在6G空地一体化网络(AGINs)时代,无人机(UAVs)在任务关键环境(如灾后救援行动)中为按需无线覆盖提供关键支持。然而,用于多无人机协同编排的传统深度强化学习(DRL)方法常面临严峻挑战:多智能体环境的非平稳性导致的训练不稳定性,以及能源效率与服务公平性难以兼顾的难题。为解决这些问题,本文提出ORCHID(通过混合智能部署实现弹性覆盖的协同编排),一种新颖的稳定性增强型两阶段学习框架。首先,ORCHID采用一种GBS感知的拓扑分区策略以缓解探索冷启动问题。其次,我们在MAPPO架构中引入一种重置与微调(R\&F)机制,该机制通过同步学习率衰减和优化器状态重置来稳定学习过程。此机制有效抑制梯度方差以防止策略退化,从而确保算法在动态环境中的弹性。此外,我们发现了一种反直觉的效率-公平协同效应:与传统权衡观点相反,我们的结果表明,所提出的最大最小公平性(MMF)设计不仅保障了小区边缘用户的服务,而且相较于倾向于收敛至次优贪婪均衡的比例公平性(PF),实现了更优的能源效率。大量实验证实,与现有先进基线方法相比,ORCHID占据了更优的帕累托主导地位,确保了任务关键场景下鲁棒的收敛性与弹性的连接性。

0
下载
关闭预览

相关内容

《无人机辅助的天空地一体化网络:学习算法技术综述》
国外有人/无人平台协同作战概述
无人机
122+阅读 · 2019年5月28日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
国家自然科学基金
32+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
国家自然科学基金
27+阅读 · 2011年12月31日
VIP会员
相关VIP内容
《无人机辅助的天空地一体化网络:学习算法技术综述》
相关基金
国家自然科学基金
32+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
国家自然科学基金
27+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员