GSDrive: Reinforcing Driving Policies by Multi-mode Trajectory Probing with 3D Gaussian Splatting Environment - 专知论文

会员服务 ·

0

3D · 多模 · 模态 · 多模态 · 端到端 ·

GSDrive: Reinforcing Driving Policies by Multi-mode Trajectory Probing with 3D Gaussian Splatting Environment

翻译：GSDrive：基于3D高斯泼溅环境的多模态轨迹探测强化驾驶策略

Ziang Guo,Min Chen,Xuefeng Zhang,Yixiao Zhou,Zufeng Zhang,Dzmitry Tsetserukou

from arxiv, initial version

End-to-end (E2E) autonomous driving presents a promising approach for translating perceptual inputs directly into driving actions. However, prohibitive annotation costs and temporal data quality degradation hinder long-term real-world deployment. While combining imitation learning (IL) and reinforcement learning (RL) is a common strategy for policy improvement, conventional RL training relies on delayed, event-based rewards-policies learn only from catastrophic outcomes such as collisions, leading to premature convergence to suboptimal behaviors. To address these limitations, we introduce GSDrive, a framework that exploits 3D Gaussian Splatting (3DGS) for differentiable, physics-based reward shaping in E2E driving policy improvement. Our method incorporates a flow matching-based trajectory predictor within the 3DGS simulator, enabling multi-mode trajectory probing where candidate trajectories are rolled out to assess prospective rewards. This establishes a bidirectional knowledge exchange between IL and RL by grounding reward functions in physically simulated interaction signals, offering immediate dense feedback instead of sparse catastrophic events. Evaluated on the reconstructed nuScenes dataset, our method surpasses existing simulation-based RL driving approaches in closed-loop experiments. Code is available at https://github.com/ZionGo6/GSDrive.

翻译：端到端自动驾驶为将感知输入直接转化为驾驶行为提供了一条有前景的路径。然而，高昂的标注成本与时间序列数据质量退化制约了其在真实世界中的长期部署。尽管结合模仿学习与强化学习是策略改进的常见策略，但传统强化学习训练依赖于延迟的事件驱动奖励——策略仅从碰撞等灾难性后果中学习，导致过早收敛至次优行为。为应对这些局限，我们提出GSDrive框架，该框架利用3D高斯泼溅技术实现端到端驾驶策略改进中基于物理的可微分奖励塑形。我们的方法在3DGS模拟器中集成了基于流匹配的轨迹预测器，支持多模态轨迹探测：通过展开候选轨迹评估预期奖励。该方法通过将奖励函数锚定于物理模拟的交互信号，建立模仿学习与强化学习间的双向知识交换，提供即时密集反馈而非稀疏的灾难性事件信号。在重建的nuScenes数据集上的评估表明，我们的方法在闭环实验中超越了现有基于模拟的强化学习驾驶方法。代码已开源至https://github.com/ZionGo6/GSDrive。

0

相关内容

3D是英文“Three Dimensions”的简称，中文是指三维、三个维度、三个坐标，即有长、有宽、有高，换句话说，就是立体的，是相对于只有长和宽的平面（2D）而言。

自动驾驶中的轨迹预测大型基础模型：全面综述

自动驾驶中的轨迹预测大型基础模型：全面综述

专知会员服务

16+阅读 · 2025年9月18日

自动驾驶中的3D目标检测研究进展

自动驾驶中的3D目标检测研究进展

专知会员服务

12+阅读 · 2025年7月20日

端到端自动驾驶系统研究综述

端到端自动驾驶系统研究综述

专知会员服务

31+阅读 · 2024年11月29日

《数据驱动的自动驾驶》最新综述，详述大数据系统、数据挖掘和闭环技术

《数据驱动的自动驾驶》最新综述，详述大数据系统、数据挖掘和闭环技术

专知会员服务

35+阅读 · 2024年1月28日

端到端自动驾驶:挑战与前沿

端到端自动驾驶:挑战与前沿

专知会员服务

54+阅读 · 2023年7月3日

【CMU博士论文】分布式强化学习自动驾驶，100页pdf

【CMU博士论文】分布式强化学习自动驾驶，100页pdf

专知会员服务

38+阅读 · 2023年4月17日

【CTH博士论文】基于强化学习的自动驾驶决策，149页pdf

【CTH博士论文】基于强化学习的自动驾驶决策，149页pdf

专知会员服务

60+阅读 · 2023年2月18日

重磅！40+位学者发布《知识增强机器学习在自动驾驶中的应用》,93页pdf885篇文献全面阐述自动驾驶知识表示、嵌入、提取和整合

重磅！40+位学者发布《知识增强机器学习在自动驾驶中的应用》,93页pdf885篇文献全面阐述自动驾驶知识表示、嵌入、提取和整合

专知会员服务

53+阅读 · 2022年5月12日

强化学习与模仿学习的自动驾驶，CMU-Xinshuo Weng博士生，57页ppt

强化学习与模仿学习的自动驾驶，CMU-Xinshuo Weng博士生，57页ppt

专知会员服务

35+阅读 · 2022年5月6日

强化学习的自动驾驶控制技术研究进展

专知会员服务

141+阅读 · 2021年2月17日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

深度学习技术在自动驾驶中的应用

深度学习技术在自动驾驶中的应用

智能交通技术

26+阅读 · 2019年10月27日

自动驾驶高精度定位如何在复杂环境进行

自动驾驶高精度定位如何在复杂环境进行

智能交通技术

18+阅读 · 2019年9月27日

自动驾驶技术解读——自动驾驶汽车决策控制系统

自动驾驶技术解读——自动驾驶汽车决策控制系统

智能交通技术

30+阅读 · 2019年7月7日

自动驾驶车辆定位技术概述｜厚势汽车

自动驾驶车辆定位技术概述｜厚势汽车

厚势

10+阅读 · 2019年5月16日

自动驾驶汽车技术路线简介

自动驾驶汽车技术路线简介

智能交通技术

15+阅读 · 2019年4月25日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

【边缘智能】边缘计算驱动的深度学习加速技术

【边缘智能】边缘计算驱动的深度学习加速技术

产业智能官

20+阅读 · 2019年2月8日

展望：模型驱动的深度学习

展望：模型驱动的深度学习

人工智能学家

12+阅读 · 2018年1月23日

无人驾驶中4D场景实时解析算法研究

国家自然科学基金

12+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

高动态环境下的多普勒测速脉冲星导航方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动增强现实中基于视觉—惯性传感器的混合跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

混合交通环境中自动驾驶汽车安全可达性分析与优化控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于GNSS的高速列车多源信息融合定位模型及其RAMS评估研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于排队模型的动态车辆路径问题实时优化策略及算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

融入驾驶人感知的交通流建模方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

混入自动驾驶汽车的高速公路交通流微观建模与仿真方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

一种新型的基于行人检测与行走方向识别的辅助驾驶安全系统的设计与开发

国家自然科学基金

0+阅读 · 2014年12月31日

CADET: Physics-Grounded Causal Auditing and Training-Free Deconfounding of End-to-End Driving Planners

Arxiv

0+阅读 · 6月16日

AlignDrive: Aligned Lateral-Longitudinal Planning for End-to-End Autonomous Driving

Arxiv

0+阅读 · 6月16日

TerraTransfer: Learning End-to-End Driving Policies Without Expert Demonstrations

Arxiv

0+阅读 · 6月16日

DriveJudge: Rethinking Autonomous Driving Evaluation with Vision-Language Models

Arxiv

0+阅读 · 6月15日

DriveReward: A Comprehensive Dataset and Generative Vision-Language Reward Model for Autonomous Driving

Arxiv

0+阅读 · 6月14日

CADET: Physics-Grounded Causal Auditing and Training-Free Deconfounding of End-to-End Driving Planners

Arxiv

0+阅读 · 6月12日

IDOL: Inverse-Dynamics-Guided Future Prediction for End-to-End Autonomous Driving

Arxiv

0+阅读 · 5月29日

Closed Loop Dynamic Driving Data Mixture for Real-Synthetic Co-Training

Arxiv

0+阅读 · 5月20日

Causality-Aware End-to-End Autonomous Driving via Ego-Centric Joint Scene Modeling

Arxiv

0+阅读 · 5月13日

GSDrive: Reinforcing Driving Policies by Multi-mode Trajectory Probing with 3D Gaussian Splatting Environment

Arxiv

0+阅读 · 5月1日

VIP会员

文章信息

相关主题

最新内容

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

0+阅读 · 今天14:41

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

2+阅读 · 今天14:37

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

2+阅读 · 今天14:13

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

2+阅读 · 今天14:11

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

2+阅读 · 今天14:05

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

2+阅读 · 今天13:23

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

1+阅读 · 今天13:11

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

14+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

7+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

7+阅读 · 7月19日

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

8+阅读 · 7月19日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

11+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

8+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

13+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

9+阅读 · 7月18日

相关VIP内容

自动驾驶中的轨迹预测大型基础模型：全面综述

自动驾驶中的轨迹预测大型基础模型：全面综述

专知会员服务

16+阅读 · 2025年9月18日

自动驾驶中的3D目标检测研究进展

自动驾驶中的3D目标检测研究进展

专知会员服务

12+阅读 · 2025年7月20日

端到端自动驾驶系统研究综述

端到端自动驾驶系统研究综述

专知会员服务

31+阅读 · 2024年11月29日

《数据驱动的自动驾驶》最新综述，详述大数据系统、数据挖掘和闭环技术

《数据驱动的自动驾驶》最新综述，详述大数据系统、数据挖掘和闭环技术

专知会员服务

35+阅读 · 2024年1月28日

端到端自动驾驶:挑战与前沿

端到端自动驾驶:挑战与前沿

专知会员服务

54+阅读 · 2023年7月3日

【CMU博士论文】分布式强化学习自动驾驶，100页pdf

【CMU博士论文】分布式强化学习自动驾驶，100页pdf

专知会员服务

38+阅读 · 2023年4月17日

【CTH博士论文】基于强化学习的自动驾驶决策，149页pdf

【CTH博士论文】基于强化学习的自动驾驶决策，149页pdf

专知会员服务

60+阅读 · 2023年2月18日

重磅！40+位学者发布《知识增强机器学习在自动驾驶中的应用》,93页pdf885篇文献全面阐述自动驾驶知识表示、嵌入、提取和整合

重磅！40+位学者发布《知识增强机器学习在自动驾驶中的应用》,93页pdf885篇文献全面阐述自动驾驶知识表示、嵌入、提取和整合

专知会员服务

53+阅读 · 2022年5月12日

强化学习与模仿学习的自动驾驶，CMU-Xinshuo Weng博士生，57页ppt

强化学习与模仿学习的自动驾驶，CMU-Xinshuo Weng博士生，57页ppt

专知会员服务

35+阅读 · 2022年5月6日

强化学习的自动驾驶控制技术研究进展

专知会员服务

141+阅读 · 2021年2月17日

热门VIP内容

开通专知VIP会员享更多权益服务

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

印度精确打击与指挥架构的断层

美空军AI完成F-16战斗机自主空战历史性试飞

相关资讯

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

深度学习技术在自动驾驶中的应用

深度学习技术在自动驾驶中的应用

智能交通技术

26+阅读 · 2019年10月27日

自动驾驶高精度定位如何在复杂环境进行

自动驾驶高精度定位如何在复杂环境进行

智能交通技术

18+阅读 · 2019年9月27日

自动驾驶技术解读——自动驾驶汽车决策控制系统

自动驾驶技术解读——自动驾驶汽车决策控制系统

智能交通技术

30+阅读 · 2019年7月7日

自动驾驶车辆定位技术概述｜厚势汽车

自动驾驶车辆定位技术概述｜厚势汽车

厚势

10+阅读 · 2019年5月16日

自动驾驶汽车技术路线简介

自动驾驶汽车技术路线简介

智能交通技术

15+阅读 · 2019年4月25日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

【边缘智能】边缘计算驱动的深度学习加速技术

【边缘智能】边缘计算驱动的深度学习加速技术

产业智能官

20+阅读 · 2019年2月8日

展望：模型驱动的深度学习

展望：模型驱动的深度学习

人工智能学家

12+阅读 · 2018年1月23日

相关论文

CADET: Physics-Grounded Causal Auditing and Training-Free Deconfounding of End-to-End Driving Planners

Arxiv

0+阅读 · 6月16日

AlignDrive: Aligned Lateral-Longitudinal Planning for End-to-End Autonomous Driving

Arxiv

0+阅读 · 6月16日

TerraTransfer: Learning End-to-End Driving Policies Without Expert Demonstrations

Arxiv

0+阅读 · 6月16日

DriveJudge: Rethinking Autonomous Driving Evaluation with Vision-Language Models

Arxiv

0+阅读 · 6月15日

DriveReward: A Comprehensive Dataset and Generative Vision-Language Reward Model for Autonomous Driving

Arxiv

0+阅读 · 6月14日

CADET: Physics-Grounded Causal Auditing and Training-Free Deconfounding of End-to-End Driving Planners

Arxiv

0+阅读 · 6月12日

IDOL: Inverse-Dynamics-Guided Future Prediction for End-to-End Autonomous Driving

Arxiv

0+阅读 · 5月29日

Closed Loop Dynamic Driving Data Mixture for Real-Synthetic Co-Training

Arxiv

0+阅读 · 5月20日

Causality-Aware End-to-End Autonomous Driving via Ego-Centric Joint Scene Modeling

Arxiv

0+阅读 · 5月13日

GSDrive: Reinforcing Driving Policies by Multi-mode Trajectory Probing with 3D Gaussian Splatting Environment

Arxiv

0+阅读 · 5月1日

相关基金

无人驾驶中4D场景实时解析算法研究

国家自然科学基金

12+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

高动态环境下的多普勒测速脉冲星导航方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动增强现实中基于视觉—惯性传感器的混合跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

混合交通环境中自动驾驶汽车安全可达性分析与优化控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于GNSS的高速列车多源信息融合定位模型及其RAMS评估研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于排队模型的动态车辆路径问题实时优化策略及算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

融入驾驶人感知的交通流建模方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

混入自动驾驶汽车的高速公路交通流微观建模与仿真方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

一种新型的基于行人检测与行走方向识别的辅助驾驶安全系统的设计与开发

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员