In order to navigate complex traffic environments, self-driving vehicles must recognize many semantic classes pertaining to vulnerable road users or traffic control devices. However, many safety-critical objects (e.g., construction worker) appear infrequently in nominal traffic conditions, leading to a severe shortage of training examples from driving data alone. Recent vision foundation models, which are trained on a large corpus of data, can serve as a good source of external prior knowledge to improve generalization. We propose FOMO-3D, the first multi-modal 3D detector to leverage vision foundation models for long-tailed 3D detection. Specifically, FOMO-3D exploits rich semantic and depth priors from OWLv2 and Metric3Dv2 within a two-stage detection paradigm that first generates proposals with a LiDAR-based branch and a novel camera-based branch, and refines them with attention especially to image features from OWL. Evaluations on real-world driving data show that using rich priors from vision foundation models with careful multi-modal fusion designs leads to large gains for long-tailed 3D detection. Project website is at https://waabi.ai/fomo3d/.


翻译:为使自动驾驶车辆能在复杂的交通环境中导航,其必须识别与弱势道路使用者或交通控制设备相关的众多语义类别。然而,许多对安全至关重要的物体(例如,建筑工人)在常规交通条件下出现频率较低,仅依靠驾驶数据会导致训练样本严重不足。近期在大量数据上训练的视觉基础模型,可作为良好的外部先验知识来源以提升泛化能力。我们提出了FOMO-3D,这是首个利用视觉基础模型进行长尾3D检测的多模态3D检测器。具体而言,FOMO-3D在一个两阶段检测范式中,利用来自OWLv2和Metric3Dv2的丰富语义与深度先验:首先生成基于LiDAR分支和新型基于相机分支的候选区域,随后通过注意力机制(特别针对来自OWL的图像特征)对其进行细化。在真实世界驾驶数据上的评估表明,结合精心设计的多模态融合方案,利用视觉基础模型的丰富先验能为长尾3D检测带来显著性能提升。项目网站位于 https://waabi.ai/fomo3d/。

0
下载
关闭预览

相关内容

3D是英文“Three Dimensions”的简称,中文是指三维、三个维度、三个坐标,即有长、有宽、有高,换句话说,就是立体的,是相对于只有长和宽的平面(2D)而言。
自动驾驶中的3D目标检测研究进展
专知会员服务
11+阅读 · 2025年7月20日
自动驾驶中的基础模型:场景生成与场景分析综述
专知会员服务
28+阅读 · 2025年6月16日
无人驾驶仿真软件
智能交通技术
22+阅读 · 2019年5月9日
基于视频的目标检测的发展【附PPT与视频资料】
人工智能前沿讲习班
19+阅读 · 2018年12月14日
车辆目标检测
数据挖掘入门与实战
30+阅读 · 2018年3月30日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
自动驾驶中的3D目标检测研究进展
专知会员服务
11+阅读 · 2025年7月20日
自动驾驶中的基础模型:场景生成与场景分析综述
专知会员服务
28+阅读 · 2025年6月16日
相关资讯
无人驾驶仿真软件
智能交通技术
22+阅读 · 2019年5月9日
基于视频的目标检测的发展【附PPT与视频资料】
人工智能前沿讲习班
19+阅读 · 2018年12月14日
车辆目标检测
数据挖掘入门与实战
30+阅读 · 2018年3月30日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员