Optimizing Mission Planning for Multi-Debris Rendezvous Using Reinforcement Learning with Refueling and Adaptive Collision Avoidance

As the orbital environment around Earth becomes increasingly crowded with debris, active debris removal (ADR) missions face significant challenges in ensuring safe operations while minimizing the risk of in-orbit collisions. This study presents a reinforcement learning (RL) based framework to enhance adaptive collision avoidance in ADR missions, specifically for multi-debris removal using small satellites. Small satellites are increasingly adopted due to their flexibility, cost effectiveness, and maneuverability, making them well suited for dynamic missions such as ADR. Building on existing work in multi-debris rendezvous, the framework integrates refueling strategies, efficient mission planning, and adaptive collision avoidance to optimize spacecraft rendezvous operations. The proposed approach employs a masked Proximal Policy Optimization (PPO) algorithm, enabling the RL agent to dynamically adjust maneuvers in response to real-time orbital conditions. Key considerations include fuel efficiency, avoidance of active collision zones, and optimization of dynamic orbital parameters. The RL agent learns to determine efficient sequences for rendezvousing with multiple debris targets, optimizing fuel usage and mission time while incorporating necessary refueling stops. Simulated ADR scenarios derived from the Iridium 33 debris dataset are used for evaluation, covering diverse orbital configurations and debris distributions to demonstrate robustness and adaptability. Results show that the proposed RL framework reduces collision risk while improving mission efficiency compared to traditional heuristic approaches. This work provides a scalable solution for planning complex multi-debris ADR missions and is applicable to other multi-target rendezvous problems in autonomous space mission planning.

翻译：随着地球轨道环境日益拥挤，主动碎片清除任务在确保安全运行的同时降低在轨碰撞风险方面面临重大挑战。本研究提出一种基于强化学习的框架，以增强主动碎片清除任务中的自适应碰撞规避能力，特别针对使用小卫星的多碎片清除任务。小卫星因其灵活性、成本效益和机动性优势而日益普及，非常适合主动碎片清除等动态任务。该框架在现有多碎片交会研究基础上，整合了燃料补给策略、高效任务规划和自适应碰撞规避机制，以优化航天器交会操作。所提方法采用掩码近端策略优化算法，使强化学习智能体能够根据实时轨道条件动态调整机动策略。关键考量因素包括燃料效率、主动碰撞区域规避以及动态轨道参数优化。强化学习智能体通过学习确定与多个碎片目标交会的高效序列，在整合必要燃料补给停靠点的同时，优化燃料消耗与任务时间。研究使用基于铱星33号碎片数据集生成的仿真场景进行评估，涵盖多种轨道构型和碎片分布以验证鲁棒性与适应性。结果表明，与传统启发式方法相比，所提强化学习框架在提升任务效率的同时显著降低了碰撞风险。本工作为规划复杂多碎片主动清除任务提供了可扩展的解决方案，并适用于自主空间任务规划中的其他多目标交会问题。