Autonomous mission planning for Active Debris Removal (ADR) must balance efficiency, adaptability, and strict feasibility constraints on fuel and mission duration. This work compares three planners for the constrained multi-debris rendezvous problem in Low Earth Orbit: a nominal Masked Proximal Policy Optimization (PPO) policy trained under fixed mission parameters, a domain-randomized Masked PPO policy trained across varying mission constraints for improved robustness, and a plain Monte Carlo Tree Search (MCTS) baseline. Evaluations are conducted in a high-fidelity orbital simulation with refueling, realistic transfer dynamics, and randomized debris fields across 300 test cases in nominal, reduced fuel, and reduced mission time scenarios. Results show that nominal PPO achieves top performance when conditions match training but degrades sharply under distributional shift, while domain-randomized PPO exhibits improved adaptability with only moderate loss in nominal performance. MCTS consistently handles constraint changes best due to online replanning but incurs orders-of-magnitude higher computation time. The findings underline a trade-off between the speed of learned policies and the adaptability of search-based methods, and suggest that combining training-time diversity with online planning could be a promising path for future resilient ADR mission planners.


翻译:主动碎片清除(ADR)的自主任务规划必须在效率、适应性与严格的燃料及任务时长可行性约束之间取得平衡。本研究针对低地球轨道中的受约束多碎片交会问题,比较了三种规划器:一种是在固定任务参数下训练的标准掩码近端策略优化(PPO)策略;一种是为提升鲁棒性而在不同任务约束下训练的领域随机化掩码PPO策略;以及一个朴素的蒙特卡洛树搜索(MCTS)基线。评估在一个高保真轨道仿真环境中进行,该环境包含燃料补给、真实的转移动力学以及随机生成的碎片场,并在300个测试案例中覆盖了标称、燃料减少和任务时间减少三种场景。结果表明,当条件与训练环境匹配时,标准PPO策略能取得最佳性能,但在分布偏移下性能急剧下降;而领域随机化PPO策略在标称性能仅有适度损失的情况下,表现出更好的适应性。MCTS由于能够在线重新规划,始终能最好地处理约束变化,但其计算时间高出数个数量级。这些发现揭示了学习策略的速度与基于搜索的方法的适应性之间的权衡,并表明将训练时的多样性与在线规划相结合,可能是未来具有弹性的ADR任务规划器的一条有前景的路径。

0
下载
关闭预览

相关内容

《基于二元优化与图学习的多智能体行动方案自动生成》
《基于图神经网络与强化学习的自主空战决策研究》
专知会员服务
27+阅读 · 2025年5月15日
作战任务智能规划系统设计及关键技术研究
专知会员服务
103+阅读 · 2024年4月25日
战术级任务规划方法研究综述
专知会员服务
149+阅读 · 2024年1月11日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
反导任务规划技术丨研究前沿
科学出版社
23+阅读 · 2019年7月16日
【泡泡图灵智库】Detect-SLAM:目标检测和SLAM相互收益
泡泡机器人SLAM
14+阅读 · 2019年6月28日
深度学习中Attention Mechanism详细介绍:原理、分类及应用
深度学习与NLP
10+阅读 · 2019年2月18日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2013年12月31日
国家自然科学基金
15+阅读 · 2012年12月31日
国家自然科学基金
96+阅读 · 2009年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2013年12月31日
国家自然科学基金
15+阅读 · 2012年12月31日
国家自然科学基金
96+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员