Multi-camera 3D object detection for autonomous driving is a challenging problem that has garnered notable attention from both academia and industry. An obstacle encountered in vision-based techniques involves the precise extraction of geometry-conscious features from RGB images. Recent approaches have utilized geometric-aware image backbones pretrained on depth-relevant tasks to acquire spatial information. However, these approaches overlook the critical aspect of view transformation, resulting in inadequate performance due to the misalignment of spatial knowledge between the image backbone and view transformation. To address this issue, we propose a novel geometric-aware pretraining framework called GAPretrain. Our approach incorporates spatial and structural cues to camera networks by employing the geometric-rich modality as guidance during the pretraining phase. The transference of modal-specific attributes across different modalities is non-trivial, but we bridge this gap by using a unified bird's-eye-view (BEV) representation and structural hints derived from LiDAR point clouds to facilitate the pretraining process. GAPretrain serves as a plug-and-play solution that can be flexibly applied to multiple state-of-the-art detectors. Our experiments demonstrate the effectiveness and generalization ability of the proposed method. We achieve 46.2 mAP and 55.5 NDS on the nuScenes val set using the BEVFormer method, with a gain of 2.7 and 2.1 points, respectively. We also conduct experiments on various image backbones and view transformations to validate the efficacy of our approach. Code will be released at https://github.com/OpenDriveLab/BEVPerception-Survey-Recipe.


翻译:多摄像头三维目标检测是自动驾驶领域的一项挑战性问题,已引起学术界和工业界的广泛关注。基于视觉的技术面临的一个障碍在于如何从RGB图像中精确提取几何感知特征。近期方法采用在深度相关任务上预训练的几何感知图像骨干网络来获取空间信息。然而,这些方法忽视了视角变换这一关键环节,导致图像骨干网络与视角变换之间的空间知识存在错配,从而性能欠佳。为解决此问题,我们提出一种新型几何感知预训练框架GAPretrain。该方法在预训练阶段借助几何丰富模态作为引导,向摄像机网络注入空间与结构线索。不同模态间的模态专属属性迁移并非易事,但我们通过统一鸟瞰图表示及源自激光雷达点云的结构线索来弥合这一鸿沟,从而优化预训练过程。GAPretrain作为即插即用方案,可灵活应用于多种最先进的检测器。实验证明该方法具有出色的有效性与泛化能力。基于BEVFormer方法,我们在nuScenes验证集上实现了46.2 mAP与55.5 NDS,分别提升2.7和2.1个百分点。我们还在多种图像骨干网络与视角变换方案上开展实验,验证了本方法的优越性。代码将于https://github.com/OpenDriveLab/BEVPerception-Survey-Recipe 开源。

0
下载
关闭预览

相关内容

【CVPR2023】GeoLayoutLM:视觉信息提取的几何预训练
专知会员服务
32+阅读 · 2023年4月25日
【CVPR2023】MSeg3D:面向自动驾驶的多模态3D语义分割
专知会员服务
16+阅读 · 2023年3月17日
专知会员服务
39+阅读 · 2021年5月16日
MonoGRNet:单目3D目标检测的通用框架(TPAMI2021)
专知会员服务
18+阅读 · 2021年5月3日
ECCV 2022 | 港中文MMLab:基于Transformer的光流
PaperWeekly
0+阅读 · 2022年9月2日
BEVFormer:基于Transformer的自动驾驶BEV纯视觉感知
【泡泡点云时空】基于分割方法的物体六维姿态估计
泡泡机器人SLAM
18+阅读 · 2019年9月15日
干货 | 视频显著性目标检测(文末附有完整源码)
计算机视觉战队
14+阅读 · 2019年4月29日
【泡泡前沿追踪】跟踪SLAM前沿动态系列之IROS2018
泡泡机器人SLAM
29+阅读 · 2018年10月28日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
17+阅读 · 2022年2月23日
Arxiv
12+阅读 · 2021年6月21日
Arxiv
17+阅读 · 2021年3月29日
VIP会员
最新内容
消耗优势:美军的“精确规模化”概念
专知会员服务
6+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
7+阅读 · 6月15日
俄乌战场地面机器人如何改写战争规则
专知会员服务
9+阅读 · 6月14日
《无人水面艇文献综述与结构设计》135页
专知会员服务
14+阅读 · 6月13日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员