Unmanned aerial vehicles serving as aerial base stations can rapidly restore connectivity after disasters, yet abrupt changes in user mobility and traffic demands shift the quality of service trade-offs and induce strong non-stationarity. Deep reinforcement learning policies suffer from plasticity loss under such shifts, as representation collapse and neuron dormancy impair adaptation. We propose plasticity enhanced multi-agent mixture of experts (PE-MAMoE), a centralized training with decentralized execution framework built on multi-agent proximal policy optimization. PE-MAMoE equips each UAV with a sparsely gated mixture of experts actor whose router selects a single specialist per step. A non-parametric Phase Controller injects brief, expert-only stochastic perturbations after phase switches, resets the action log-standard-deviation, anneals entropy and learning rate, and schedules the router temperature, all to re-plasticize the policy without destabilizing safe behaviors. We derive a dynamic regret bound showing the tracking error scales with both environment variation and cumulative noise energy. In a phase-driven simulator with mobile users and 3GPP-style channels, PE-MAMoE improves normalized interquartile mean return by 26.3\% over the best baseline, increases served-user capacity by 12.8\%, and reduces collisions by approximately 75\%. Diagnostics confirm persistently higher expert feature rank and periodic dormant-neuron recovery at regime switches.


翻译:作为空中基站的无人机能够在灾难后快速恢复通信,但用户移动性和流量需求的突变会改变服务质量权衡,并引发强非平稳性。在此类变化下,深度强化学习策略因表征坍缩和神经元休眠导致塑性丧失,从而削弱其适应能力。我们提出塑性增强型多专家混合体(PE-MAMoE),这是一种基于多智能体近端策略优化的集中训练与分散执行框架。PE-MAMoE为每架无人机配备稀疏门控的混合专家执行器,其路由器每一步仅选择单一专家。一个参数化相位控制器在相位切换后注入短暂的、仅针对专家的随机扰动,重置动作对数标准差,退火熵与学习率,并调度路由器温度,以在不破坏安全行为的前提下重新塑性策略。我们推导了动态遗憾界,表明跟踪误差与环境变化和累积噪声能量均成比例。在包含移动用户和3GPP标准信道的相位驱动仿真器中,PE-MAMoE将标准化四分位均值回报相比最佳基线提升26.3%,增加服务用户容量12.8%,并减少约75%的碰撞。诊断结果证实,在状态转换时专家特征秩持续升高且休眠神经元周期性恢复。

0
下载
关闭预览

相关内容

《抗干扰协同无人机中继网络的多智能体深度强化学习》
专知会员服务
28+阅读 · 2025年12月31日
《基于优化的复杂多无人机任务自动分配技术》
专知会员服务
34+阅读 · 2025年8月29日
中文版 | 无人机系统(UAS):军事技术的颠覆性变革
专知会员服务
24+阅读 · 2025年4月17日
基于多智能体博弈强化学习的无人机智能攻击策略生成模型
《用于空战机动的分层多智能体强化学习》
专知会员服务
69+阅读 · 2023年10月5日
国外有人/无人平台协同作战概述
无人机
123+阅读 · 2019年5月28日
智能无人作战系统的发展
科技导报
36+阅读 · 2018年6月29日
智能无人机集群技术概述
无人机
46+阅读 · 2018年2月28日
国家自然科学基金
33+阅读 · 2017年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
国家自然科学基金
29+阅读 · 2011年12月31日
国家自然科学基金
12+阅读 · 2010年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
3+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
3+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
33+阅读 · 2017年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
国家自然科学基金
29+阅读 · 2011年12月31日
国家自然科学基金
12+阅读 · 2010年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员