Closed-loop cooperative driving requires planners that generate realistic multimodal multi-agent trajectories while improving safety and traffic efficiency. Existing diffusion planners can model multimodal behaviors from demonstrations, but they often exhibit weak scene consistency and remain poorly aligned with closed-loop objectives; meanwhile, stable online post-training in reactive multi-agent environments remains difficult. We present Multi-ORFT, which couples scene-conditioned diffusion pre-training with stable online reinforcement post-training. In pre-training, the planner uses inter-agent self-attention, cross-attention, and AdaLN-Zero-based scene conditioning to improve scene consistency and road adherence of joint trajectories. In post-training, we formulate a two-level MDP that exposes step-wise reverse-kernel likelihoods for online optimization, and combine dense trajectory-level rewards with variance-gated group-relative policy optimization (VG-GRPO) to stabilize training. On the WOMD closed-loop benchmark, Multi-ORFT reduces collision rate from 2.04% to 1.89% and off-road rate from 1.68% to 1.36%, while increasing average speed from 8.36 to 8.61 m/s relative to the pre-trained planner, and it outperforms strong open-source baselines including SMART-large, SMART-tiny-CLSFT, and VBD on the primary safety and efficiency metrics. These results show that coupling scene-consistent denoising with stable online diffusion-policy optimization improves the reliability of closed-loop cooperative driving.


翻译:闭环协作驾驶需要生成兼顾安全与交通效率、具有真实多模态特性的多智能体轨迹规划器。现有扩散规划器虽能从示范数据中建模多模态行为,但普遍存在场景一致性薄弱、与闭环目标对齐不足的问题;同时在反应式多智能体环境中进行稳定在线后训练仍具挑战性。我们提出多智能体ORFT方法,将场景条件化扩散预训练与稳定在线强化后训练相结合。预训练阶段,规划器通过智能体间自注意力、交叉注意力及基于AdaLN-Zero的场景条件化机制,提升联合轨迹的场景一致性与道路依从性。后训练阶段,我们构建了暴露逐步逆向核似然以实现在线优化的双层MDP,并融合密集轨迹级奖励与方差门控组相对策略优化(VG-GRPO)来稳定训练过程。在WOMD闭环基准测试中,与预训练规划器相比,多智能体ORFT将碰撞率从2.04%降至1.89%、偏离道路率从1.68%降至1.36%,平均速度从8.36m/s提升至8.61m/s,并在主要安全与效率指标上超越SMART-large、SMART-tiny-CLSFT、VBD等强开源基线。结果表明,将场景一致性去噪与稳定在线扩散策略优化相结合,可有效提升闭环协作驾驶的可靠性。

0
下载
关闭预览

相关内容

多智能体协作机制
专知会员服务
23+阅读 · 4月25日
中文版 | 集中式与分布式多智能体AI协调策略
专知会员服务
22+阅读 · 2025年5月8日
多循环嵌套的大语言模型多智能体指挥控制过程
专知会员服务
44+阅读 · 2025年1月19日
基于深度强化学习的多无人车系统编队控制
专知会员服务
46+阅读 · 2024年2月23日
基于多智能体强化学习的协同目标分配
专知会员服务
141+阅读 · 2023年9月5日
多智能体协同决策方法研究
专知会员服务
134+阅读 · 2022年12月15日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
我国智能网联汽车车路协同发展路线政策及示范环境研究
车路协同应用场景分析
智能交通技术
24+阅读 · 2019年4月13日
车路协同构建“通信+计算”新体系
智能交通技术
11+阅读 · 2019年3月26日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
【AGV】仓库内多AGV协作的全局路径规划算法的研究
产业智能官
28+阅读 · 2018年11月10日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
0+阅读 · 4月28日
VIP会员
相关主题
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关资讯
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
我国智能网联汽车车路协同发展路线政策及示范环境研究
车路协同应用场景分析
智能交通技术
24+阅读 · 2019年4月13日
车路协同构建“通信+计算”新体系
智能交通技术
11+阅读 · 2019年3月26日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
【AGV】仓库内多AGV协作的全局路径规划算法的研究
产业智能官
28+阅读 · 2018年11月10日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员