This paper presents a robust reinforcement learning algorithm called robust deterministic policy gradient (RDPG), which reformulates the H-infinity control problem as a two-player zero-sum dynamic game between a user and an adversary. The method combines deterministic policy gradients with deep reinforcement learning to train a robust policy that attenuates disturbances efficiently. A practical variant, robust deep deterministic policy gradient (RDDPG), integrates twin-delayed updates for stability and sample efficiency. Experiments on an unmanned aerial vehicle demonstrate superior robustness and tracking accuracy under severe disturbance conditions.


翻译:本文提出了一种名为鲁棒确定性策略梯度(RDPG)的强化学习算法,该算法将H∞控制问题重新表述为用户与对手之间的双人零和动态博弈。该方法将确定性策略梯度与深度强化学习相结合,训练出一种能有效抑制干扰的鲁棒策略。其实用变体——鲁棒深度确定性策略梯度(RDDPG)——集成了双延迟更新机制以提高稳定性和样本效率。在无人飞行器上的实验表明,该方法在严重干扰条件下展现出卓越的鲁棒性和跟踪精度。

0
下载
关闭预览

相关内容

【ICML2025】生成模型中潜空间的Hessian几何结构
专知会员服务
17+阅读 · 2025年6月15日
【ICML2025】GCAL:使图模型适应不断演变的领域偏移
专知会员服务
9+阅读 · 2025年5月23日
 DiffRec: 扩散推荐模型(SIGIR'23)
专知会员服务
48+阅读 · 2023年4月16日
【NeurIPS2019】图变换网络:Graph Transformer Network
PCA的基本数学原理
算法与数学之美
11+阅读 · 2017年8月8日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
VIP会员
相关VIP内容
相关资讯
【NeurIPS2019】图变换网络:Graph Transformer Network
PCA的基本数学原理
算法与数学之美
11+阅读 · 2017年8月8日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员