End-to-end (E2E) autonomous driving presents a promising approach for translating perceptual inputs directly into driving actions. However, prohibitive annotation costs and temporal data quality degradation hinder long-term real-world deployment. While combining imitation learning (IL) and reinforcement learning (RL) is a common strategy for policy improvement, conventional RL training relies on delayed, event-based rewards-policies learn only from catastrophic outcomes such as collisions, leading to premature convergence to suboptimal behaviors. To address these limitations, we introduce GSDrive, a framework that exploits 3D Gaussian Splatting (3DGS) for differentiable, physics-based reward shaping in E2E driving policy improvement. Our method incorporates a flow matching-based trajectory predictor within the 3DGS simulator, enabling multi-mode trajectory probing where candidate trajectories are rolled out to assess prospective rewards. This establishes a bidirectional knowledge exchange between IL and RL by grounding reward functions in physically simulated interaction signals, offering immediate dense feedback instead of sparse catastrophic events. Evaluated on the reconstructed nuScenes dataset, our method surpasses existing simulation-based RL driving approaches in closed-loop experiments. Code is available at https://github.com/ZionGo6/GSDrive.


翻译:端到端(E2E)自动驾驶为将感知输入直接转化为驾驶动作提供了一种有前景的方法。然而,高昂的标注成本和时间数据质量退化阻碍了其在真实世界中的长期部署。虽然结合模仿学习(IL)和强化学习(RL)是策略改进的常见方案,但传统RL训练依赖于延迟的、基于事件的奖励——策略仅从碰撞等灾难性后果中学习,导致过早收敛至次优行为。为解决这些局限,我们提出GSDrive框架,该框架利用三维高斯泼溅(3DGS)在E2E驾驶策略改进中实现可微的物理驱动奖励塑形。我们的方法在3DGS模拟器中集成了基于流匹配的轨迹预测器,从而实现多模态轨迹探测:通过滚动执行候选轨迹来评估预期奖励。这通过将奖励函数建立在物理模拟交互信号之上,在IL和RL之间建立双向知识交换,提供即时密集反馈而非稀疏灾难事件。在重建的nuScenes数据集上的评估表明,我们的方法在闭环实验中超越了现有基于模拟的RL驾驶方法。代码已开源至https://github.com/ZionGo6/GSDrive。

0
下载
关闭预览

相关内容

【ICLR2025】AdaWM:基于自适应世界模型的自动驾驶规划
专知会员服务
16+阅读 · 2025年1月26日
自动驾驶中的多智能体强化学习综述
专知会员服务
47+阅读 · 2024年8月20日
端到端自动驾驶:挑战与前沿
专知会员服务
54+阅读 · 2023年7月3日
【CMU博士论文】分布式强化学习自动驾驶,100页pdf
专知会员服务
37+阅读 · 2023年4月17日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
176+阅读 · 2020年2月8日
【MIT博士论文】数据高效强化学习,176页pdf
深度学习技术在自动驾驶中的应用
智能交通技术
26+阅读 · 2019年10月27日
自动驾驶高精度定位如何在复杂环境进行
智能交通技术
18+阅读 · 2019年9月27日
自动驾驶汽车技术路线简介
智能交通技术
15+阅读 · 2019年4月25日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
深度学习在自动驾驶感知领域的应用
AI100
11+阅读 · 2019年3月6日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
1+阅读 · 今天15:03
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
0+阅读 · 今天14:31
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
相关VIP内容
相关资讯
【MIT博士论文】数据高效强化学习,176页pdf
深度学习技术在自动驾驶中的应用
智能交通技术
26+阅读 · 2019年10月27日
自动驾驶高精度定位如何在复杂环境进行
智能交通技术
18+阅读 · 2019年9月27日
自动驾驶汽车技术路线简介
智能交通技术
15+阅读 · 2019年4月25日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
深度学习在自动驾驶感知领域的应用
AI100
11+阅读 · 2019年3月6日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
相关基金
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员