Recent video diffusion models generate photorealistic, temporally coherent videos, yet they fall short as reliable world models for autonomous driving, where structured motion and physically consistent interactions are essential. Adapting these generalist video models to driving domains has shown promise but typically requires massive domain-specific data and costly fine-tuning. We propose an efficient adaptation framework that converts generalist video diffusion models into controllable driving world models with minimal supervision. The key idea is to decouple motion learning from appearance synthesis. First, the model is adapted to predict structured motion in a simplified form: videos of skeletonized agents and scene elements, focusing learning on physical and social plausibility. Then, the same backbone is reused to synthesize realistic RGB videos conditioned on these motion sequences, effectively "dressing" the motion with texture and lighting. This two-stage process mirrors a reasoning-rendering paradigm: first infer dynamics, then render appearance. Our experiments show this decoupled approach is exceptionally efficient: adapting SVD, we match prior SOTA models with less than 6% of their compute. Scaling to LTX, our MAD-LTX model outperforms all open-source competitors, and supports a comprehensive suite of text, ego, and object controls. Project page: https://vita-epfl.github.io/MAD-World-Model/


翻译:近期视频扩散模型能够生成具有照片级真实感且时序连贯的视频,然而作为自动驾驶领域的可靠世界模型仍显不足,因为该领域需要结构化的运动与物理一致的交互。将这类通用视频模型适配至驾驶领域已展现出潜力,但通常需要大量领域特定数据及昂贵的微调成本。我们提出一种高效适配框架,能够以最小监督将通用视频扩散模型转化为可控的驾驶世界模型。其核心思想是将运动学习与外观合成解耦。首先,模型被适配为以简化形式预测结构化运动:生成骨架化智能体与场景元素的视频,使学习聚焦于物理与社会合理性。随后,复用同一骨干网络,以这些运动序列为条件合成真实感RGB视频,实现为运动“赋予”纹理与光照。这种两阶段流程遵循推理-渲染范式:先推断动态,再渲染外观。实验表明,这种解耦方法具有卓越的效率:通过适配SVD模型,我们仅用不到6%的计算量即达到先前SOTA模型性能。扩展至LTX模型后,我们的MAD-LTX模型超越了所有开源竞品,并支持文本、自车视角及物体控制等完整控制功能。项目页面:https://vita-epfl.github.io/MAD-World-Model/

0
下载
关闭预览

相关内容

医学影像中的高效扩散模型:全面综述
专知会员服务
15+阅读 · 2025年5月26日
自动驾驶的世界模型综述
专知会员服务
42+阅读 · 2025年1月22日
《扩散模型智能交通系统》综述
专知会员服务
25+阅读 · 2024年9月27日
【伯克利博士论文】高效的自动驾驶3D视觉,108页pdf
专知会员服务
24+阅读 · 2024年9月1日
自动驾驶技术解读——自动驾驶汽车决策控制系统
智能交通技术
30+阅读 · 2019年7月7日
基于MaaS的智慧交通体系
智能交通技术
11+阅读 · 2019年6月13日
出行即服务(MAAS)框架
智能交通技术
53+阅读 · 2019年5月22日
自动驾驶车辆定位技术概述|厚势汽车
厚势
10+阅读 · 2019年5月16日
自动驾驶仿真软件列表
智能交通技术
13+阅读 · 2019年5月9日
自动驾驶汽车技术路线简介
智能交通技术
15+阅读 · 2019年4月25日
MaskFusion: 多运动目标实时识别、跟踪和重建
计算机视觉life
11+阅读 · 2019年4月20日
MAAS:出行服务的颠覆者
智能交通技术
16+阅读 · 2018年12月27日
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
相关资讯
自动驾驶技术解读——自动驾驶汽车决策控制系统
智能交通技术
30+阅读 · 2019年7月7日
基于MaaS的智慧交通体系
智能交通技术
11+阅读 · 2019年6月13日
出行即服务(MAAS)框架
智能交通技术
53+阅读 · 2019年5月22日
自动驾驶车辆定位技术概述|厚势汽车
厚势
10+阅读 · 2019年5月16日
自动驾驶仿真软件列表
智能交通技术
13+阅读 · 2019年5月9日
自动驾驶汽车技术路线简介
智能交通技术
15+阅读 · 2019年4月25日
MaskFusion: 多运动目标实时识别、跟踪和重建
计算机视觉life
11+阅读 · 2019年4月20日
MAAS:出行服务的颠覆者
智能交通技术
16+阅读 · 2018年12月27日
相关基金
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员