Kinematics-Aware Latent World Models for Data-Efficient Autonomous Driving - 专知论文

会员服务 ·

0

世界模型 · 结构 · 自动驾驶 · 策略优化 · 隐状态 ·

Kinematics-Aware Latent World Models for Data-Efficient Autonomous Driving

翻译：基于运动学感知的隐世界模型用于数据高效自动驾驶

Jiazhuo Li,Linjiang Cao,Qi Liu,Xi Xiong

from arxiv, 6 pages, 5 figures. Under review at IEEE ITSC

Data-efficient learning remains a central challenge in autonomous driving due to the high cost and safety risks of large-scale real-world interaction. Although world-model-based reinforcement learning enables policy optimization through latent imagination, existing approaches often lack explicit mechanisms to encode spatial and kinematic structure essential for driving tasks. In this work, we build upon the Recurrent State-Space Model (RSSM) and propose a kinematics-aware latent world model framework for autonomous driving. Vehicle kinematic information is incorporated into the observation encoder to ground latent transitions in physically meaningful motion dynamics, while geometry-aware supervision regularizes the RSSM latent state to capture task-relevant spatial structure beyond pixel reconstruction. The resulting structured latent dynamics improve long-horizon imagination fidelity and stabilize policy optimization. Experiments in a driving simulation benchmark demonstrate consistent gains over both model-free and pixel-based world-model baselines in terms of sample efficiency and driving performance. Ablation studies further verify that the proposed design enhances spatial representation quality within the latent space. These results suggest that integrating kinematic grounding into RSSM-based world models provides a scalable and physically grounded paradigm for autonomous driving policy learning.

翻译：数据高效学习仍然是自动驾驶领域的核心挑战，这主要源于大规模真实世界交互的高成本与安全风险。尽管基于世界模型的强化学习能够通过隐想象实现策略优化，但现有方法通常缺乏对驾驶任务至关重要的空间与运动学结构进行显式编码的机制。本研究基于循环状态空间模型（RSSM），提出了一种用于自动驾驶的运动学感知隐世界模型框架。车辆运动学信息被整合至观测编码器中，使隐状态转移建立在具有物理意义的运动动力学基础上；同时，几何感知监督对RSSM隐状态进行正则化，以捕获超越像素重建的任务相关空间结构。由此形成的结构化隐动力学提升了长时程想象的保真度并稳定了策略优化。在驾驶仿真基准上的实验表明，该方法在样本效率和驾驶性能方面均优于无模型及基于像素的世界模型基线。消融研究进一步验证了所提设计能够提升隐空间内的空间表征质量。这些结果表明，将运动学基础整合到基于RSSM的世界模型中，为自动驾驶策略学习提供了一个可扩展且具有物理基础的范式。

0

相关内容

世界模型

自动驾驶中的轨迹预测大型基础模型：全面综述

自动驾驶中的轨迹预测大型基础模型：全面综述

专知会员服务

16+阅读 · 2025年9月18日

自动驾驶中的基础模型：场景生成与场景分析综述

自动驾驶中的基础模型：场景生成与场景分析综述

专知会员服务

28+阅读 · 2025年6月16日

【ICLR2025】AdaWM：基于自适应世界模型的自动驾驶规划

【ICLR2025】AdaWM：基于自适应世界模型的自动驾驶规划

专知会员服务

16+阅读 · 2025年1月26日

自动驾驶的世界模型综述

自动驾驶的世界模型综述

专知会员服务

47+阅读 · 2025年1月22日

《数据驱动的自动驾驶》最新综述，详述大数据系统、数据挖掘和闭环技术

《数据驱动的自动驾驶》最新综述，详述大数据系统、数据挖掘和闭环技术

专知会员服务

35+阅读 · 2024年1月28日

【CMU博士论文】分布式强化学习自动驾驶，100页pdf

【CMU博士论文】分布式强化学习自动驾驶，100页pdf

专知会员服务

37+阅读 · 2023年4月17日

强化学习与模仿学习的自动驾驶，CMU-Xinshuo Weng博士生，57页ppt

强化学习与模仿学习的自动驾驶，CMU-Xinshuo Weng博士生，57页ppt

专知会员服务

34+阅读 · 2022年5月6日

【综述】自动驾驶领域中的强化学习，附18页论文下载

【综述】自动驾驶领域中的强化学习，附18页论文下载

专知会员服务

176+阅读 · 2020年2月8日

深度学习在自动车辆控制中的应用研究综述（A Survey of Deep Learning Applications to Autonomous Vehicle Control）

深度学习在自动车辆控制中的应用研究综述（A Survey of Deep Learning Applications to Autonomous Vehicle Control）

专知会员服务

34+阅读 · 2019年12月25日

【Google&Waymo】自动驾驶感知的可扩展性:Waymo开放数据集，23位学者联名出品

【Google&Waymo】自动驾驶感知的可扩展性:Waymo开放数据集，23位学者联名出品

专知会员服务

13+阅读 · 2019年12月18日

深度学习技术在自动驾驶中的应用

深度学习技术在自动驾驶中的应用

智能交通技术

26+阅读 · 2019年10月27日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

自动驾驶汽车技术路线简介

自动驾驶汽车技术路线简介

智能交通技术

15+阅读 · 2019年4月25日

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

泡泡机器人SLAM

10+阅读 · 2019年4月18日

深度学习在自动驾驶感知领域的应用

深度学习在自动驾驶感知领域的应用

AI100

11+阅读 · 2019年3月6日

深度学习时代的图模型，清华发文综述图网络

深度学习时代的图模型，清华发文综述图网络

GAN生成式对抗网络

13+阅读 · 2018年12月23日

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

GAN生成式对抗网络

11+阅读 · 2018年6月5日

基于计算机视觉的自动驾驶算法研究综述 | 厚势

基于计算机视觉的自动驾驶算法研究综述 | 厚势

厚势

10+阅读 · 2018年2月8日

展望：模型驱动的深度学习

展望：模型驱动的深度学习

人工智能学家

12+阅读 · 2018年1月23日

【深度学习】深度学习的核心：掌握训练数据的方法

【深度学习】深度学习的核心：掌握训练数据的方法

产业智能官

12+阅读 · 2018年1月14日

无人驾驶中4D场景实时解析算法研究

国家自然科学基金

12+阅读 · 2017年12月31日

应用于自动驾驶车辆环境感知系统的去雾技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

基于迁移学习的图像隐写分析新方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

混合交通环境中自动驾驶汽车安全可达性分析与优化控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于排队模型的动态车辆路径问题实时优化策略及算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

融入驾驶人感知的交通流建模方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向时空变化的GIS数据模型

国家自然科学基金

6+阅读 · 2014年12月31日

混入自动驾驶汽车的高速公路交通流微观建模与仿真方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

Bridging Scene Generation and Planning: Driving with World Model via Unifying Vision and Motion Representation

Arxiv

0+阅读 · 3月16日

DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

Arxiv

0+阅读 · 3月7日

UniDrive-WM: Unified Understanding, Planning and Generation World Model For Autonomous Driving

Arxiv

0+阅读 · 3月3日

Risk-Aware World Model Predictive Control for Generalizable End-to-End Autonomous Driving

Arxiv

0+阅读 · 2月26日

A Generalizable Physics-guided Causal Model for Trajectory Prediction in Autonomous Driving

Arxiv

0+阅读 · 2月15日

Optimistic World Models: Efficient Exploration in Model-Based Deep Reinforcement Learning

Arxiv

0+阅读 · 2月10日

DriveWorld-VLA: Unified Latent-Space World Modeling with Vision-Language-Action for Autonomous Driving

Arxiv

0+阅读 · 2月6日

Visual Implicit Geometry Transformer for Autonomous Driving

Arxiv

0+阅读 · 2月5日

MindDrive: A Vision-Language-Action Model for Autonomous Driving via Online Reinforcement Learning

Arxiv

0+阅读 · 2月5日

InstaDrive: Instance-Aware Driving World Models for Realistic and Consistent Video Generation

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

最新内容

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

5+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

3+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

1+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

1+阅读 · 7月18日

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

5+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

6+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

4+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

2+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

5+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

3+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

4+阅读 · 7月17日

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

专知会员服务

12+阅读 · 7月16日

《无人地面战车（UGV）的崛起》报告

《无人地面战车（UGV）的崛起》报告

专知会员服务

7+阅读 · 7月16日

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

专知会员服务

6+阅读 · 7月16日

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

专知会员服务

14+阅读 · 7月16日

相关VIP内容

自动驾驶中的轨迹预测大型基础模型：全面综述

自动驾驶中的轨迹预测大型基础模型：全面综述

专知会员服务

16+阅读 · 2025年9月18日

自动驾驶中的基础模型：场景生成与场景分析综述

自动驾驶中的基础模型：场景生成与场景分析综述

专知会员服务

28+阅读 · 2025年6月16日

【ICLR2025】AdaWM：基于自适应世界模型的自动驾驶规划

【ICLR2025】AdaWM：基于自适应世界模型的自动驾驶规划

专知会员服务

16+阅读 · 2025年1月26日

自动驾驶的世界模型综述

自动驾驶的世界模型综述

专知会员服务

47+阅读 · 2025年1月22日

《数据驱动的自动驾驶》最新综述，详述大数据系统、数据挖掘和闭环技术

《数据驱动的自动驾驶》最新综述，详述大数据系统、数据挖掘和闭环技术

专知会员服务

35+阅读 · 2024年1月28日

【CMU博士论文】分布式强化学习自动驾驶，100页pdf

【CMU博士论文】分布式强化学习自动驾驶，100页pdf

专知会员服务

37+阅读 · 2023年4月17日

强化学习与模仿学习的自动驾驶，CMU-Xinshuo Weng博士生，57页ppt

强化学习与模仿学习的自动驾驶，CMU-Xinshuo Weng博士生，57页ppt

专知会员服务

34+阅读 · 2022年5月6日

【综述】自动驾驶领域中的强化学习，附18页论文下载

【综述】自动驾驶领域中的强化学习，附18页论文下载

专知会员服务

176+阅读 · 2020年2月8日

深度学习在自动车辆控制中的应用研究综述（A Survey of Deep Learning Applications to Autonomous Vehicle Control）

深度学习在自动车辆控制中的应用研究综述（A Survey of Deep Learning Applications to Autonomous Vehicle Control）

专知会员服务

34+阅读 · 2019年12月25日

【Google&Waymo】自动驾驶感知的可扩展性:Waymo开放数据集，23位学者联名出品

【Google&Waymo】自动驾驶感知的可扩展性:Waymo开放数据集，23位学者联名出品

专知会员服务

13+阅读 · 2019年12月18日

热门VIP内容

开通专知VIP会员享更多权益服务

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

相关资讯

深度学习技术在自动驾驶中的应用

深度学习技术在自动驾驶中的应用

智能交通技术

26+阅读 · 2019年10月27日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

自动驾驶汽车技术路线简介

自动驾驶汽车技术路线简介

智能交通技术

15+阅读 · 2019年4月25日

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

泡泡机器人SLAM

10+阅读 · 2019年4月18日

深度学习在自动驾驶感知领域的应用

深度学习在自动驾驶感知领域的应用

AI100

11+阅读 · 2019年3月6日

深度学习时代的图模型，清华发文综述图网络

深度学习时代的图模型，清华发文综述图网络

GAN生成式对抗网络

13+阅读 · 2018年12月23日

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

GAN生成式对抗网络

11+阅读 · 2018年6月5日

基于计算机视觉的自动驾驶算法研究综述 | 厚势

基于计算机视觉的自动驾驶算法研究综述 | 厚势

厚势

10+阅读 · 2018年2月8日

展望：模型驱动的深度学习

展望：模型驱动的深度学习

人工智能学家

12+阅读 · 2018年1月23日

【深度学习】深度学习的核心：掌握训练数据的方法

【深度学习】深度学习的核心：掌握训练数据的方法

产业智能官

12+阅读 · 2018年1月14日

相关论文

Bridging Scene Generation and Planning: Driving with World Model via Unifying Vision and Motion Representation

Arxiv

0+阅读 · 3月16日

DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

Arxiv

0+阅读 · 3月7日

UniDrive-WM: Unified Understanding, Planning and Generation World Model For Autonomous Driving

Arxiv

0+阅读 · 3月3日

Risk-Aware World Model Predictive Control for Generalizable End-to-End Autonomous Driving

Arxiv

0+阅读 · 2月26日

A Generalizable Physics-guided Causal Model for Trajectory Prediction in Autonomous Driving

Arxiv

0+阅读 · 2月15日

Optimistic World Models: Efficient Exploration in Model-Based Deep Reinforcement Learning

Arxiv

0+阅读 · 2月10日

DriveWorld-VLA: Unified Latent-Space World Modeling with Vision-Language-Action for Autonomous Driving

Arxiv

0+阅读 · 2月6日

Visual Implicit Geometry Transformer for Autonomous Driving

Arxiv

0+阅读 · 2月5日

MindDrive: A Vision-Language-Action Model for Autonomous Driving via Online Reinforcement Learning

Arxiv

0+阅读 · 2月5日

InstaDrive: Instance-Aware Driving World Models for Realistic and Consistent Video Generation

Arxiv

0+阅读 · 2月3日

相关基金

无人驾驶中4D场景实时解析算法研究

国家自然科学基金

12+阅读 · 2017年12月31日

应用于自动驾驶车辆环境感知系统的去雾技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

基于迁移学习的图像隐写分析新方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

混合交通环境中自动驾驶汽车安全可达性分析与优化控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于排队模型的动态车辆路径问题实时优化策略及算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

融入驾驶人感知的交通流建模方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向时空变化的GIS数据模型

国家自然科学基金

6+阅读 · 2014年12月31日

混入自动驾驶汽车的高速公路交通流微观建模与仿真方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员