Multi-camera 3D object detection for autonomous driving is a challenging problem that has garnered notable attention from both academia and industry. An obstacle encountered in vision-based techniques involves the precise extraction of geometry-conscious features from RGB images. Recent approaches have utilized geometric-aware image backbones pretrained on depth-relevant tasks to acquire spatial information. However, these approaches overlook the critical aspect of view transformation, resulting in inadequate performance due to the misalignment of spatial knowledge between the image backbone and view transformation. To address this issue, we propose a novel geometric-aware pretraining framework called GAPretrain. Our approach incorporates spatial and structural cues to camera networks by employing the geometric-rich modality as guidance during the pretraining phase. The transference of modal-specific attributes across different modalities is non-trivial, but we bridge this gap by using a unified bird's-eye-view (BEV) representation and structural hints derived from LiDAR point clouds to facilitate the pretraining process. GAPretrain serves as a plug-and-play solution that can be flexibly applied to multiple state-of-the-art detectors. Our experiments demonstrate the effectiveness and generalization ability of the proposed method. We achieve 46.2 mAP and 55.5 NDS on the nuScenes val set using the BEVFormer method, with a gain of 2.7 and 2.1 points, respectively. We also conduct experiments on various image backbones and view transformations to validate the efficacy of our approach. Code will be released at https://github.com/OpenDriveLab/BEVPerception-Survey-Recipe.


翻译:多摄像头三维目标检测是自动驾驶领域中的一个具有挑战性的问题,引起了学术界和工业界的显著关注。视觉技术面临的一个障碍是如何从RGB图像中精确提取具有几何意识的特征。近期方法利用在深度相关任务上预训练的几何感知图像主干网络来获取空间信息。然而,这些方法忽视了视角变换这一关键环节,导致因图像主干网络与视角变换之间的空间知识错位而性能不足。为解决此问题,我们提出了一种新颖的几何感知预训练框架GAPretrain。我们的方法通过在预训练阶段利用几何丰富模态作为引导,将空间和结构线索融入摄像头网络。跨模态传递模态特定属性并非易事,但我们通过采用统一的鸟瞰图(BEV)表示和从激光雷达点云提取的结构提示来弥合这一差距,从而促进预训练过程。GAPretrain作为一种即插即用的解决方案,可灵活应用于多种最先进的检测器。我们的实验证明了所提方法的有效性和泛化能力。使用BEVFormer方法在nuScenes验证集上,我们实现了46.2 mAP和55.5 NDS,分别提升了2.7和2.1个百分点。我们还对各种图像主干网络和视角变换进行了实验,以验证我们方法的功效。代码将在https://github.com/OpenDriveLab/BEVPerception-Survey-Recipe 发布。

0
下载
关闭预览

相关内容

MonoGRNet:单目3D目标检测的通用框架(TPAMI2021)
专知会员服务
18+阅读 · 2021年5月3日
【CVPR2021】通道注意力的高效移动网络设计
专知会员服务
20+阅读 · 2021年4月27日
GNN 新基准!Long Range Graph Benchmark
图与推荐
0+阅读 · 2022年10月18日
大白话用Transformer做BEV 3D目标检测
PaperWeekly
1+阅读 · 2022年6月7日
ICRA 2019 论文速览 | 传统SLAM、三维视觉算法进展
计算机视觉life
50+阅读 · 2019年7月16日
【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集
泡泡机器人SLAM
11+阅读 · 2019年1月4日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员