Parallel trajectory optimization via the Alternating Direction Method of Multipliers (ADMM) has emerged as a scalable approach to long-horizon motion planning. However, existing frameworks typically decompose the problem into parallel subproblems based on a predefined fixed structure. Such structural rigidity often causes optimization stagnation in highly constrained regions, where a few lagging subproblems delay global convergence. A natural remedy is to adaptively re-split these stagnating segments online. Yet, deciding when, where, and how to split exceeds the capability of rule-based heuristics. To this end, we propose ATRS, a novel framework that embeds a shared Deep Reinforcement Learning policy into the parallel ADMM loop. We formulate this adaptive adjustment as a Multi-Agent Shared-Policy Markov Decision Process, where all trajectory segments act as homogeneous agents and share a unified neural policy network. This parameter-sharing architecture endows the system with size invariance, enabling it to handle dynamically changing segment counts during re-splitting and generalize to arbitrary trajectory lengths. Furthermore, our formulation inherently supports zero-shot generalization to unseen environments, as our network relies solely on the internal states of the numerical solver rather than on the geometric features of the environment. To ensure solver stability, a Confidence-Based Election mechanism selects only the most stagnating segment for re-splitting at each step. Extensive simulations demonstrate that ATRS accelerates convergence, reducing the number of iterations by up to 26.0% and the computation time by up to 19.1%. Real-world experiments further confirm its applicability to both large-scale offline global planning and real-time onboard replanning within 35 ms per cycle, with no sim-to-real degradation.


翻译:通过交替方向乘子法(ADMM)进行并行轨迹优化已成为解决长时域运动规划问题的一种可扩展方法。然而,现有框架通常基于预定义的固定结构将问题分解为并行子问题。这种结构性刚化常导致高度约束区域中的优化停滞——少数滞后子问题会延缓全局收敛。一种自然的补救措施是自适应地在线重分割这些停滞段。然而,决定何时、何处以及如何分割已超出基于规则的启发式方法的能力。为此,我们提出ATRS,一种将共享深度强化学习策略嵌入并行ADMM循环的新型框架。我们将这种自适应调整建模为多智能体共享策略马尔可夫决策过程,其中所有轨迹段均作为同构智能体共享统一的神经策略网络。这种参数共享架构赋予系统尺度不变性,使其能在重分割过程中处理动态变化的段数,并泛化至任意轨迹长度。此外,我们的公式化方法天然支持对未知环境的零样本泛化——因为网络仅依赖数值求解器的内部状态而非环境几何特征。为保证求解器稳定性,基于置信度的选举机制在每步中仅选择最滞后的段进行重分割。大量仿真结果表明,ATRS加速了收敛,使迭代次数减少高达26.0%,计算时间缩短高达19.1%。真实世界实验进一步验证了其在每周期35毫秒内完成大规模离线全局规划与实时在线重规划的适用性,且未出现仿真到现实的性能退化。

0
下载
关闭预览

相关内容

【博士论文】基于冲量的加速优化算法
专知会员服务
28+阅读 · 2021年11月29日
用Attention玩转CV,一文总览自注意力语义分割进展
深度学习中Attention Mechanism详细介绍:原理、分类及应用
深度学习与NLP
10+阅读 · 2019年2月18日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
1+阅读 · 今天15:53
Agent Harness综述:大模型智能体执行器工程全景
专知会员服务
1+阅读 · 今天15:04
马赛克防御与分布式指挥:伊朗的回击(中文版)
《基于理论的威慑效能评估》
专知会员服务
3+阅读 · 今天14:48
ICML2026 | 重新思考顺序知识编辑中的正则化
专知会员服务
8+阅读 · 5月27日
《用于兵力发展选项优先排序的成本效益模型》
专知会员服务
11+阅读 · 5月27日
AutoResearch AI综述:迈向AI驱动的科学发现自动化
专知会员服务
10+阅读 · 5月26日
《Palantir边缘人工智能》手册
专知会员服务
25+阅读 · 5月26日
相关VIP内容
【博士论文】基于冲量的加速优化算法
专知会员服务
28+阅读 · 2021年11月29日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员