End-to-end autonomous driving has achieved state-of-the-art performance on benchmarks and real-world deployments. Its standard training recipe, however, is expensive across all stages: collecting and labeling millions of driving frames is costly, and closed-loop RL on images is bottlenecked by the per-step cost of photorealistic rendering plus a forward pass through a large vision backbone. Self-play in vectorized simulators changes the economics: millions of rollout steps per second, and a state distribution naturally rich in collisions, near-misses, and recoveries that no driving log contains. Our approach exploits this asymmetry by decoupling learning to drive from learning to see. We pretrain a single policy by self-play, then align its latent space with a pretrained vision backbone, through the action KL divergence and a batch-relational low-rank structural loss. The action target comes from the self-play policy, so alignment never supervises against a logged trajectory: a paired dataset of (image, scene-state) frames suffices, with no need for the curated expert demonstrations that imitation pretraining is built on. On photorealistic 3D Gaussian splatting closed-loop scenarios, the resulting end-to-end policy matches or exceeds prior end-to-end methods.


翻译:端到端自动驾驶在基准测试和实际部署中已取得最先进性能。然而,其标准训练流程在各个阶段均成本高昂:采集和标注数百万驾驶帧需要大量投入,基于图像的闭环强化学习受限于每步成本——包括逼真渲染及大型视觉骨干网络的前向传播。向量化模拟器中的自我博弈改变了经济模式:每秒可生成数百万次回合,且状态分布自然富含碰撞、险情与恢复场景,这是任何驾驶日志所无法包含的。我们的方法利用这种非对称性,将驾驶学习与视觉学习解耦。首先通过自我博弈预训练单一策略,然后借助动作KL散度与批量关系型低秩结构损失,将其潜在空间与预训练的视觉骨干网络对齐。动作目标源自自我博弈策略,因此对齐过程无需对记录轨迹进行监督:仅需(图像,场景状态)帧的配对数据集即可,无需模仿预训练所依赖的精心策划的专家示范。在逼真的3D高斯泼溅闭环场景中,最终端到端策略的性能达到或超越先前的端到端方法。

0
下载
关闭预览

相关内容

端到端自动驾驶系统研究综述
专知会员服务
31+阅读 · 2024年11月29日
端到端自动驾驶:挑战与前沿
专知会员服务
54+阅读 · 2023年7月3日
【CMU博士论文】分布式强化学习自动驾驶,100页pdf
专知会员服务
37+阅读 · 2023年4月17日
【CTH博士论文】基于强化学习的自动驾驶决策,149页pdf
专知会员服务
59+阅读 · 2023年2月18日
专知会员服务
140+阅读 · 2021年2月17日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
176+阅读 · 2020年2月8日
深度学习技术在自动驾驶中的应用
智能交通技术
26+阅读 · 2019年10月27日
自动驾驶技术解读——自动驾驶汽车决策控制系统
智能交通技术
30+阅读 · 2019年7月7日
自动驾驶汽车技术路线简介
智能交通技术
15+阅读 · 2019年4月25日
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
最新内容
定向能反无人机系统最新发展动态
专知会员服务
0+阅读 · 18分钟前
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
0+阅读 · 35分钟前
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
相关VIP内容
端到端自动驾驶系统研究综述
专知会员服务
31+阅读 · 2024年11月29日
端到端自动驾驶:挑战与前沿
专知会员服务
54+阅读 · 2023年7月3日
【CMU博士论文】分布式强化学习自动驾驶,100页pdf
专知会员服务
37+阅读 · 2023年4月17日
【CTH博士论文】基于强化学习的自动驾驶决策,149页pdf
专知会员服务
59+阅读 · 2023年2月18日
专知会员服务
140+阅读 · 2021年2月17日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
176+阅读 · 2020年2月8日
相关基金
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员