Autonomous driving relies on robust models trained on large-scale, high-quality multi-view driving videos. Although world models provide a cost-effective solution for generating realistic driving data, they often suffer from identity drift, where the same object changes its appearance or category across frames due to the absence of instance-level temporal constraints. We introduce ConsisDrive, an identity-preserving driving world model designed to enforce temporal consistency at the instance level. Our framework incorporates two key components: (1) Instance-Masked Attention, which applies instance identity masks and trajectory masks within attention blocks to ensure that visual tokens interact only with their corresponding instance features across spatial and temporal dimensions, thereby preserving object identity consistency; and (2) Instance-Masked Loss, which adaptively emphasizes foreground regions with probabilistic instance masking, reducing background noise while maintaining overall scene fidelity. By integrating these mechanisms, ConsisDrive achieves state-of-the-art driving video generation quality and demonstrates significant improvements in downstream autonomous driving tasks on the nuScenes dataset. Our project page is https://shanpoyang654.github.io/ConsisDrive/page.html.


翻译:自动驾驶依赖于在大规模高质量多视角驾驶视频上训练的鲁棒模型。尽管世界模型为生成逼真驾驶数据提供了一种经济高效的解决方案,但它们通常存在身份漂移问题,即由于缺乏实例级时序约束,同一物体在不同帧中会改变其外观或类别。我们提出了ConsisDrive,一种身份保持的驾驶世界模型,旨在实例级别强制实施时序一致性。我们的框架包含两个关键组件:(1) 实例掩码注意力机制,在注意力模块中应用实例身份掩码和轨迹掩码,确保视觉标记仅在空间和时间维度上与其对应的实例特征交互,从而保持物体身份一致性;(2) 实例掩码损失函数,通过概率性实例掩码自适应地强调前景区域,在保持整体场景保真度的同时减少背景噪声。通过整合这些机制,ConsisDrive在驾驶视频生成质量上达到了最先进水平,并在nuScenes数据集的下游自动驾驶任务中展现出显著改进。我们的项目页面为 https://shanpoyang654.github.io/ConsisDrive/page.html。

0
下载
关闭预览

相关内容

自动驾驶中的基础模型:场景生成与场景分析综述
专知会员服务
28+阅读 · 2025年6月16日
自动驾驶的世界模型综述
专知会员服务
44+阅读 · 2025年1月22日
深度学习技术在自动驾驶中的应用
智能交通技术
26+阅读 · 2019年10月27日
自动驾驶高精度定位如何在复杂环境进行
智能交通技术
18+阅读 · 2019年9月27日
自动驾驶技术解读——自动驾驶汽车决策控制系统
智能交通技术
30+阅读 · 2019年7月7日
自动驾驶车辆定位技术概述|厚势汽车
厚势
10+阅读 · 2019年5月16日
无人驾驶仿真软件
智能交通技术
22+阅读 · 2019年5月9日
自动驾驶仿真软件列表
智能交通技术
13+阅读 · 2019年5月9日
无人驾驶开源仿真平台整理
智能交通技术
27+阅读 · 2019年5月9日
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
最新内容
【CMU博士论文】物理世界的视觉感知与深度理解
专知会员服务
0+阅读 · 今天14:36
伊朗战争停火期间美军关键弹药状况分析
专知会员服务
5+阅读 · 今天11:13
电子战革命:塑造战场的十年突破(2015–2025)
专知会员服务
4+阅读 · 今天9:19
人工智能即服务与未来战争(印度视角)
专知会员服务
2+阅读 · 今天7:57
《美国战争部2027财年军事人员预算》
专知会员服务
2+阅读 · 今天7:44
伊朗战争中的电子战
专知会员服务
5+阅读 · 今天7:04
大语言模型平台在国防情报应用中的对比
专知会员服务
8+阅读 · 今天3:12
相关资讯
深度学习技术在自动驾驶中的应用
智能交通技术
26+阅读 · 2019年10月27日
自动驾驶高精度定位如何在复杂环境进行
智能交通技术
18+阅读 · 2019年9月27日
自动驾驶技术解读——自动驾驶汽车决策控制系统
智能交通技术
30+阅读 · 2019年7月7日
自动驾驶车辆定位技术概述|厚势汽车
厚势
10+阅读 · 2019年5月16日
无人驾驶仿真软件
智能交通技术
22+阅读 · 2019年5月9日
自动驾驶仿真软件列表
智能交通技术
13+阅读 · 2019年5月9日
无人驾驶开源仿真平台整理
智能交通技术
27+阅读 · 2019年5月9日
相关基金
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员