Cooperative driving is a safety- and efficiency-critical task that requires the coordination of diverse, interaction-realistic multi-agent trajectories. Although existing diffusion-based methods can capture multimodal behaviors from demonstrations, they often exhibit weak scene consistency and poor alignment with closed-loop cooperative objectives. This makes post-training necessary for further improvement, yet achieving stable online post-training in reactive multi-agent environments remains challenging. In this paper, we propose SCORP, a scene-consistent multi-agent diffusion planner with stable online reinforcement learning (RL) post-training for cooperative driving. For pre-training, we develop a scene-conditioned multi-agent denoising architecture that couples inter-agent self-attention with a dual-path conditioning mechanism: cross-attention provides direct scene-information injection, while AdaLN-Zero enables additional flexible and stable conditional modulation, thereby improving the scene consistency and road adherence of joint trajectories. For post-training, we formulate a two-layer Markov decision process (MDP) that explicitly integrates the reverse denoising chain with policy-environment interaction. We further co-design dense, well-shaped planning rewards and variance-gated group-relative policy optimization (VG-GRPO) to mitigate advantage collapse and gradient instability during closed-loop training. Extensive experiments show that SCORP outperforms strong open-source baselines on WOMD, with 10.47%-28.26% and 1.70%-7.22% improvements in core safety and efficiency metrics, respectively. Moreover, compared with alternative post-training methods, SCORP delivers significant and consistent gains in both driving safety and traffic efficiency, highlighting stable and sustained advances in closed-loop cooperative driving.


翻译:摘要:协同驾驶是一项关乎安全与效率的关键任务,需要协调多样且交互真实的多智能体轨迹。现有基于扩散的方法虽能从示范数据中捕捉多模态行为,但往往场景一致性较弱,且与闭环协同目标的对齐性差。这使得后训练成为进一步提升的必要手段,然而在反应式多智能体环境中实现稳定的在线后训练仍具挑战。本文提出SCORP——一种面向协同驾驶的场景一致性多智能体扩散规划器,并配有稳定的在线强化学习后训练。在预训练阶段,我们设计了一种场景条件化的多智能体去噪架构,该架构将智能体间自注意力与双路径条件调节机制相结合:交叉注意力实现直接场景信息注入,而AdaLN-Zero则提供额外灵活且稳定的条件调制,从而提升联合轨迹的场景一致性与道路贴合度。在后训练阶段,我们构建了一个双层马尔可夫决策过程(MDP),将反向去噪链与策略-环境交互显式集成。进一步地,我们协同设计了密集、形态良好的规划奖励与方差门控群体相对策略优化(VG-GRPO),以缓解闭环训练中的优势塌缩与梯度不稳定问题。大量实验表明,SCORP在WOMD数据集上优于强开源基线,核心安全指标与效率指标分别提升10.47%-28.26%与1.70%-7.22%。此外,相较于其他后训练方法,SCORP在驾驶安全与交通效率方面均取得显著且一致的增益,展现了闭环协同驾驶的稳定持续进步。

0
下载
关闭预览

相关内容

中文版 | 集中式与分布式多智能体AI协调策略
专知会员服务
22+阅读 · 2025年5月8日
基于多智能体强化学习的协同目标分配
专知会员服务
141+阅读 · 2023年9月5日
多智能体协同决策方法研究
专知会员服务
134+阅读 · 2022年12月15日
「基于通信的多智能体强化学习」 进展综述
自动驾驶技术解读——自动驾驶汽车决策控制系统
智能交通技术
30+阅读 · 2019年7月7日
我国智能网联汽车车路协同发展路线政策及示范环境研究
车路协同应用场景分析
智能交通技术
24+阅读 · 2019年4月13日
车路协同构建“通信+计算”新体系
智能交通技术
11+阅读 · 2019年3月26日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关资讯
「基于通信的多智能体强化学习」 进展综述
自动驾驶技术解读——自动驾驶汽车决策控制系统
智能交通技术
30+阅读 · 2019年7月7日
我国智能网联汽车车路协同发展路线政策及示范环境研究
车路协同应用场景分析
智能交通技术
24+阅读 · 2019年4月13日
车路协同构建“通信+计算”新体系
智能交通技术
11+阅读 · 2019年3月26日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员