We introduce DreamerAD, the first latent world model framework that enables efficient reinforcement learning for autonomous driving by compressing diffusion sampling from 100 steps to 1 - achieving 80x speedup while maintaining visual interpretability. Training RL policies on real-world driving data incurs prohibitive costs and safety risks. While existing pixel-level diffusion world models enable safe imagination-based training, they suffer from multi-step diffusion inference latency (2s/frame) that prevents high-frequency RL interaction. Our approach leverages denoised latent features from video generation models through three key mechanisms: (1) shortcut forcing that reduces sampling complexity via recursive multi-resolution step compression, (2) an autoregressive dense reward model operating directly on latent representations for fine-grained credit assignment, and (3) Gaussian vocabulary sampling for GRPO that constrains exploration to physically plausible trajectories. DreamerAD achieves 87.7 EPDMS on NavSim v2, establishing state-of-the-art performance and demonstrating that latent-space RL is effective for autonomous driving.


翻译:我们提出DreamerAD——首个通过潜在世界模型框架实现高效强化学习自动驾驶的方法,将扩散采样步数从100步压缩至1步,在保持视觉可解释性的同时实现80倍加速。基于真实驾驶数据训练强化学习策略将带来高昂成本与安全风险。现有像素级扩散世界模型虽支持安全的想象空间训练,却受限于多步扩散推理延迟(每帧2秒),无法满足高频强化学习交互需求。本方法通过视频生成模型的去噪潜在特征实现三大关键机制:(1)快捷强制技术——利用递归多分辨率步长压缩降低采样复杂度;(2)基于潜在表示的自回归稠密奖励模型——实现细粒度信用分配;(3)面向GRPO的高斯词汇采样——将探索约束至物理可行的轨迹空间。DreamerAD在NavSim v2基准上达到87.7 EPDMS,刷新最优性能记录,证实了潜在空间强化学习在自动驾驶领域的有效性。

0
下载
关闭预览

相关内容

【ICLR2025】AdaWM:基于自适应世界模型的自动驾驶规划
专知会员服务
16+阅读 · 2025年1月26日
自动驾驶的世界模型综述
专知会员服务
47+阅读 · 2025年1月22日
LargeAD:面向自动驾驶的大规模跨传感器数据预训练
专知会员服务
17+阅读 · 2025年1月8日
【CMU博士论文】分布式强化学习自动驾驶,100页pdf
专知会员服务
37+阅读 · 2023年4月17日
「强化学习在无人车领域」的应用与展望
专知会员服务
58+阅读 · 2022年12月8日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
176+阅读 · 2020年2月8日
DAI2020 SMARTS 自动驾驶挑战赛(深度强化学习)
深度强化学习实验室
15+阅读 · 2020年8月15日
深度学习技术在自动驾驶中的应用
智能交通技术
26+阅读 · 2019年10月27日
深度学习在自动驾驶感知领域的应用
AI100
11+阅读 · 2019年3月6日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员