Traditional end-to-end autonomous driving frameworks frequently suffer from the "style-averaging" dilemma when trained on high-variance human demonstrations, yielding homogenized, style-uncontrollable, and even kinematically unsafe policies. To overcome this limitation, we present D$^3$-MoE (Dual Disentangled Diffusion Mixture-of-Experts), which disentangles trajectory modeling along two complementary axes. On the behavioral axis, generation is decoupled from selection: a style-conditioned diffusion process synthesizes multi-style candidate trajectories in parallel within a single scene, allowing a downstream module to select the optimal trajectory based on user preference or an evaluation score. On the physical axis, decoupled longitudinal and lateral routers activate their respective experts during inference time, trained without manual labels using self-supervised targets from orthogonal ground-truth kinematics. These activated experts, architected as Diffusion Transformers (DiT) and equipped with style-conditioned AdaLN and asymmetric lateral-fusion cross-attention, independently predict their corresponding physical state before being reassembled into a unified, kinematically coherent trajectory. Extensive evaluations on the challenging NAVSIM benchmark demonstrate that D$^3$-MoE achieves state-of-the-art planning performance, reaching 88.2 PDMS and 84.3 EPDMS by default. Moreover, our Best-of-Three ensemble strategy effectively broadens the multi-modal solution space, raising performance to 91.3 PDMS and 87.5 EPDMS. Both quantitative and qualitative analyses jointly confirm the framework's advantages in planning quality and style controllability.


翻译:传统端到端自动驾驶框架在训练高方差人类演示数据时,常陷入“风格平均化”困境,产生同质化、不可控风格甚至运动学不安全的策略。为解决此限制,我们提出D$^3$-MoE(双重解耦扩散混合专家模型),该方法沿两个互补维度对轨迹建模进行解耦。在行为维度上,生成与选择相分离:风格条件扩散过程在单场景内并行合成多风格候选轨迹,使下游模块可根据用户偏好或评估分数选择最优轨迹。在物理维度上,解耦的纵向与横向路由器在推理阶段激活各自专家,这些专家通过自监督目标(基于正交地面真值运动学)无需人工标注即可训练。这些被激活的专家采用扩散Transformer架构,并配备风格条件自适应层归一化与不对称横向融合交叉注意力机制,独立预测对应物理状态后重组为统一的运动学连贯轨迹。在具有挑战性的NAVSIM基准测试上的广泛评估表明,D$^3$-MoE默认达到88.2 PDMS和84.3 EPDMS的规划性能,实现最先进水平。此外,我们的最优三选一集成策略有效拓展了多模态解空间,将性能提升至91.3 PDMS和87.5 EPDMS。定量与定性分析共同验证了该框架在规划质量与风格可控性方面的优势。

0
下载
关闭预览

相关内容

144页ppt《扩散模型》,Google DeepMind Sander Dieleman
专知会员服务
51+阅读 · 2025年11月21日
混合专家模型简述
专知会员服务
18+阅读 · 2025年5月30日
端到端自动驾驶系统研究综述
专知会员服务
31+阅读 · 2024年11月29日
多模态可控扩散模型综述
专知会员服务
39+阅读 · 2024年7月20日
端到端自动驾驶:挑战与前沿
专知会员服务
54+阅读 · 2023年7月3日
自动驾驶毫米波雷达物体检测技术-算法
CVer
14+阅读 · 2020年5月10日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
自动驾驶技术解读——自动驾驶汽车决策控制系统
智能交通技术
30+阅读 · 2019年7月7日
自动驾驶车辆定位技术概述|厚势汽车
厚势
10+阅读 · 2019年5月16日
自动驾驶汽车技术路线简介
智能交通技术
15+阅读 · 2019年4月25日
自动驾驶最新综述论文(31页PDF下载)
专知
119+阅读 · 2019年1月15日
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
144页ppt《扩散模型》,Google DeepMind Sander Dieleman
专知会员服务
51+阅读 · 2025年11月21日
混合专家模型简述
专知会员服务
18+阅读 · 2025年5月30日
端到端自动驾驶系统研究综述
专知会员服务
31+阅读 · 2024年11月29日
多模态可控扩散模型综述
专知会员服务
39+阅读 · 2024年7月20日
端到端自动驾驶:挑战与前沿
专知会员服务
54+阅读 · 2023年7月3日
相关基金
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员