MAD：面向高效驾驶世界模型的运动与外观解耦 (MAD: Motion Appearance Decoupling for efficient Driving World Models) - 专知论文

会员服务 ·

0

视频 · 适配 · 解耦 · 世界模型 · 视频扩散模型 ·

MAD: Motion Appearance Decoupling for efficient Driving World Models

翻译：MAD：面向高效驾驶世界模型的运动与外观解耦

Ahmad Rahimi,Valentin Gerard,Eloi Zablocki,Matthieu Cord,Alexandre Alahi

Recent video diffusion models generate photorealistic, temporally coherent videos, yet they fall short as reliable world models for autonomous driving, where structured motion and physically consistent interactions are essential. Adapting these generalist video models to driving domains has shown promise but typically requires massive domain-specific data and costly fine-tuning. We propose an efficient adaptation framework that converts generalist video diffusion models into controllable driving world models with minimal supervision. The key idea is to decouple motion learning from appearance synthesis. First, the model is adapted to predict structured motion in a simplified form: videos of skeletonized agents and scene elements, focusing learning on physical and social plausibility. Then, the same backbone is reused to synthesize realistic RGB videos conditioned on these motion sequences, effectively "dressing" the motion with texture and lighting. This two-stage process mirrors a reasoning-rendering paradigm: first infer dynamics, then render appearance. Our experiments show this decoupled approach is exceptionally efficient: adapting SVD, we match prior SOTA models with less than 6% of their compute. Scaling to LTX, our MAD-LTX model outperforms all open-source competitors, and supports a comprehensive suite of text, ego, and object controls. Project page: https://vita-epfl.github.io/MAD-World-Model/

翻译：近期视频扩散模型能够生成具有照片级真实感且时序连贯的视频，然而作为自动驾驶领域的可靠世界模型仍显不足，因为该领域需要结构化的运动与物理一致的交互。将这类通用视频模型适配至驾驶领域已展现出潜力，但通常需要大量领域特定数据及昂贵的微调成本。我们提出一种高效适配框架，能够以最小监督将通用视频扩散模型转化为可控的驾驶世界模型。其核心思想是将运动学习与外观合成解耦。首先，模型被适配为以简化形式预测结构化运动：生成骨架化智能体与场景元素的视频，使学习聚焦于物理与社会合理性。随后，复用同一骨干网络，以这些运动序列为条件合成真实感RGB视频，实现为运动“赋予”纹理与光照。这种两阶段流程遵循推理-渲染范式：先推断动态，再渲染外观。实验表明，这种解耦方法具有卓越的效率：通过适配SVD模型，我们仅用不到6%的计算量即达到先前SOTA模型性能。扩展至LTX模型后，我们的MAD-LTX模型超越了所有开源竞品，并支持文本、自车视角及物体控制等完整控制功能。项目页面：https://vita-epfl.github.io/MAD-World-Model/

0

相关内容

视频

医学影像中的高效扩散模型：全面综述

医学影像中的高效扩散模型：全面综述

专知会员服务

15+阅读 · 2025年5月26日

自动驾驶的世界模型综述

自动驾驶的世界模型综述

专知会员服务

42+阅读 · 2025年1月22日

《扩散模型智能交通系统》综述

《扩散模型智能交通系统》综述

专知会员服务

25+阅读 · 2024年9月27日

【伯克利博士论文】高效的自动驾驶3D视觉，108页pdf

【伯克利博士论文】高效的自动驾驶3D视觉，108页pdf

专知会员服务

24+阅读 · 2024年9月1日

大模型+自动驾驶？华为等最新《为自动驾驶打造视觉基础模型》综述，涵盖250篇文献详述其挑战、方法论和机遇

大模型+自动驾驶？华为等最新《为自动驾驶打造视觉基础模型》综述，涵盖250篇文献详述其挑战、方法论和机遇

专知会员服务

51+阅读 · 2024年1月23日

生成式AI如何用于交通？清华最新《生成式智能交通》综述，详述生成式AI在交通感知、交通预测、交通仿真和交通决策制定的作用

生成式AI如何用于交通？清华最新《生成式智能交通》综述，详述生成式AI在交通感知、交通预测、交通仿真和交通决策制定的作用

专知会员服务

57+阅读 · 2023年12月17日

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

专知会员服务

75+阅读 · 2023年11月27日

万字长文 | 看看GPT-4V是怎么开车的，必须围观，大模型真的大有作为！！！

万字长文 | 看看GPT-4V是怎么开车的，必须围观，大模型真的大有作为！！！

专知会员服务

48+阅读 · 2023年11月21日

【报告】从特斯拉FSD看人工智能-端到端模型赋能自动驾驶，机器人引领具身智能

【报告】从特斯拉FSD看人工智能-端到端模型赋能自动驾驶，机器人引领具身智能

专知会员服务

61+阅读 · 2023年8月5日

自动驾驶汽车的计算机视觉全面综述论文：问题、数据集和现状，附283页PDF下载

自动驾驶汽车的计算机视觉全面综述论文：问题、数据集和现状，附283页PDF下载

专知会员服务

113+阅读 · 2019年12月20日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

自动驾驶技术解读——自动驾驶汽车决策控制系统

自动驾驶技术解读——自动驾驶汽车决策控制系统

智能交通技术

30+阅读 · 2019年7月7日

基于MaaS的智慧交通体系

基于MaaS的智慧交通体系

智能交通技术

11+阅读 · 2019年6月13日

出行即服务（MAAS）框架

出行即服务（MAAS）框架

智能交通技术

53+阅读 · 2019年5月22日

自动驾驶车辆定位技术概述｜厚势汽车

自动驾驶车辆定位技术概述｜厚势汽车

厚势

10+阅读 · 2019年5月16日

自动驾驶仿真软件列表

自动驾驶仿真软件列表

智能交通技术

13+阅读 · 2019年5月9日

自动驾驶汽车技术路线简介

自动驾驶汽车技术路线简介

智能交通技术

15+阅读 · 2019年4月25日

MaskFusion: 多运动目标实时识别、跟踪和重建

MaskFusion: 多运动目标实时识别、跟踪和重建

计算机视觉life

11+阅读 · 2019年4月20日

MAAS：出行服务的颠覆者

MAAS：出行服务的颠覆者

智能交通技术

16+阅读 · 2018年12月27日

基于模型的系统工程——自动驾驶汽车（20180928更新）

基于模型的系统工程——自动驾驶汽车（20180928更新）

UMLChina

20+阅读 · 2018年9月28日

无人驾驶中4D场景实时解析算法研究

国家自然科学基金

12+阅读 · 2017年12月31日

面向车联网海量高速移动终端的高效信道信息获取机制

国家自然科学基金

0+阅读 · 2017年12月31日

面向车联网的交通网络涌现行为建模

国家自然科学基金

8+阅读 · 2015年12月31日

面向绿色交通的智能车辆变工况行驶能耗反馈与耗散控制方法

国家自然科学基金

0+阅读 · 2015年12月31日

MRF模型的车载全景视觉位姿估计最优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

混合交通环境中自动驾驶汽车安全可达性分析与优化控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于排队模型的动态车辆路径问题实时优化策略及算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

运动目标间语义关系的时空建模及可视化研究

国家自然科学基金

1+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

混入自动驾驶汽车的高速公路交通流微观建模与仿真方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

MASAR: Motion-Appearance Synergy Refinement for Joint Detection and Trajectory Forecasting

Arxiv

0+阅读 · 2月13日

Toward Efficient and Robust Behavior Models for Multi-Agent Driving Simulation

Arxiv

0+阅读 · 2月10日

Driving with DINO: Vision Foundation Features as a Unified Bridge for Sim-to-Real Generation in Autonomous Driving

Arxiv

0+阅读 · 2月9日

ConsisDrive: Identity-Preserving Driving World Models for Video Generation by Instance Mask

Arxiv

0+阅读 · 2月6日

DriveWorld-VLA: Unified Latent-Space World Modeling with Vision-Language-Action for Autonomous Driving

Arxiv

0+阅读 · 2月6日

InstaDrive: Instance-Aware Driving World Models for Realistic and Consistent Video Generation

Arxiv

0+阅读 · 2月3日

ConsisDrive: Identity-Preserving Driving World Models for Video Generation by Instance Mask

Arxiv

0+阅读 · 2月3日

UniDriveDreamer: A Single-Stage Multimodal World Model for Autonomous Driving

Arxiv

0+阅读 · 2月2日

UniDWM: Towards a Unified Driving World Model via Multifaceted Representation Learning

Arxiv

0+阅读 · 2月2日

AutoDriDM: An Explainable Benchmark for Decision-Making of Vision-Language Models in Autonomous Driving

Arxiv

0+阅读 · 1月21日

VIP会员

文章信息

相关主题

视频扩散模型

相关VIP内容

医学影像中的高效扩散模型：全面综述

医学影像中的高效扩散模型：全面综述

专知会员服务

15+阅读 · 2025年5月26日

自动驾驶的世界模型综述

自动驾驶的世界模型综述

专知会员服务

42+阅读 · 2025年1月22日

《扩散模型智能交通系统》综述

《扩散模型智能交通系统》综述

专知会员服务

25+阅读 · 2024年9月27日

【伯克利博士论文】高效的自动驾驶3D视觉，108页pdf

【伯克利博士论文】高效的自动驾驶3D视觉，108页pdf

专知会员服务

24+阅读 · 2024年9月1日

大模型+自动驾驶？华为等最新《为自动驾驶打造视觉基础模型》综述，涵盖250篇文献详述其挑战、方法论和机遇

大模型+自动驾驶？华为等最新《为自动驾驶打造视觉基础模型》综述，涵盖250篇文献详述其挑战、方法论和机遇

专知会员服务

51+阅读 · 2024年1月23日

生成式AI如何用于交通？清华最新《生成式智能交通》综述，详述生成式AI在交通感知、交通预测、交通仿真和交通决策制定的作用

生成式AI如何用于交通？清华最新《生成式智能交通》综述，详述生成式AI在交通感知、交通预测、交通仿真和交通决策制定的作用

专知会员服务

57+阅读 · 2023年12月17日

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

专知会员服务

75+阅读 · 2023年11月27日

万字长文 | 看看GPT-4V是怎么开车的，必须围观，大模型真的大有作为！！！

万字长文 | 看看GPT-4V是怎么开车的，必须围观，大模型真的大有作为！！！

专知会员服务

48+阅读 · 2023年11月21日

【报告】从特斯拉FSD看人工智能-端到端模型赋能自动驾驶，机器人引领具身智能

【报告】从特斯拉FSD看人工智能-端到端模型赋能自动驾驶，机器人引领具身智能

专知会员服务

61+阅读 · 2023年8月5日

自动驾驶汽车的计算机视觉全面综述论文：问题、数据集和现状，附283页PDF下载

自动驾驶汽车的计算机视觉全面综述论文：问题、数据集和现状，附283页PDF下载

专知会员服务

113+阅读 · 2019年12月20日

热门VIP内容

开通专知VIP会员享更多权益服务

论学习、公平性与复杂度

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

2025中国人工智能学会系列白皮书⸺棋盘上的人工智能|附下载

通用智能体评估的逻辑架构

相关资讯

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

自动驾驶技术解读——自动驾驶汽车决策控制系统

自动驾驶技术解读——自动驾驶汽车决策控制系统

智能交通技术

30+阅读 · 2019年7月7日

基于MaaS的智慧交通体系

基于MaaS的智慧交通体系

智能交通技术

11+阅读 · 2019年6月13日

出行即服务（MAAS）框架

出行即服务（MAAS）框架

智能交通技术

53+阅读 · 2019年5月22日

自动驾驶车辆定位技术概述｜厚势汽车

自动驾驶车辆定位技术概述｜厚势汽车

厚势

10+阅读 · 2019年5月16日

自动驾驶仿真软件列表

自动驾驶仿真软件列表

智能交通技术

13+阅读 · 2019年5月9日

自动驾驶汽车技术路线简介

自动驾驶汽车技术路线简介

智能交通技术

15+阅读 · 2019年4月25日

MaskFusion: 多运动目标实时识别、跟踪和重建

MaskFusion: 多运动目标实时识别、跟踪和重建

计算机视觉life

11+阅读 · 2019年4月20日

MAAS：出行服务的颠覆者

MAAS：出行服务的颠覆者

智能交通技术

16+阅读 · 2018年12月27日

基于模型的系统工程——自动驾驶汽车（20180928更新）

基于模型的系统工程——自动驾驶汽车（20180928更新）

UMLChina

20+阅读 · 2018年9月28日

相关论文

MASAR: Motion-Appearance Synergy Refinement for Joint Detection and Trajectory Forecasting

Arxiv

0+阅读 · 2月13日

Toward Efficient and Robust Behavior Models for Multi-Agent Driving Simulation

Arxiv

0+阅读 · 2月10日

Driving with DINO: Vision Foundation Features as a Unified Bridge for Sim-to-Real Generation in Autonomous Driving

Arxiv

0+阅读 · 2月9日

ConsisDrive: Identity-Preserving Driving World Models for Video Generation by Instance Mask

Arxiv

0+阅读 · 2月6日

DriveWorld-VLA: Unified Latent-Space World Modeling with Vision-Language-Action for Autonomous Driving

Arxiv

0+阅读 · 2月6日

InstaDrive: Instance-Aware Driving World Models for Realistic and Consistent Video Generation

Arxiv

0+阅读 · 2月3日

ConsisDrive: Identity-Preserving Driving World Models for Video Generation by Instance Mask

Arxiv

0+阅读 · 2月3日

UniDriveDreamer: A Single-Stage Multimodal World Model for Autonomous Driving

Arxiv

0+阅读 · 2月2日

UniDWM: Towards a Unified Driving World Model via Multifaceted Representation Learning

Arxiv

0+阅读 · 2月2日

AutoDriDM: An Explainable Benchmark for Decision-Making of Vision-Language Models in Autonomous Driving

Arxiv

0+阅读 · 1月21日

相关基金

无人驾驶中4D场景实时解析算法研究

国家自然科学基金

12+阅读 · 2017年12月31日

面向车联网海量高速移动终端的高效信道信息获取机制

国家自然科学基金

0+阅读 · 2017年12月31日

面向车联网的交通网络涌现行为建模

国家自然科学基金

8+阅读 · 2015年12月31日

面向绿色交通的智能车辆变工况行驶能耗反馈与耗散控制方法

国家自然科学基金

0+阅读 · 2015年12月31日

MRF模型的车载全景视觉位姿估计最优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

混合交通环境中自动驾驶汽车安全可达性分析与优化控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于排队模型的动态车辆路径问题实时优化策略及算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

运动目标间语义关系的时空建模及可视化研究

国家自然科学基金

1+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

混入自动驾驶汽车的高速公路交通流微观建模与仿真方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员