VIMI: Vehicle-Infrastructure Multi-view Intermediate Fusion for Camera-based 3D Object Detection - 专知论文

会员服务 ·

0

3D · 目标检测 · 噪声 · 通道 · 可约的 ·

2023 年 3 月 20 日

VIMI: Vehicle-Infrastructure Multi-view Intermediate Fusion for Camera-based 3D Object Detection

翻译：VIMI：面向基于摄像头的三维物体检测的车-路多视角中间融合

Zhe Wang,Siqi Fan,Xiaoliang Huo,Tongda Xu,Yan Wang,Jingjing Liu,Yilun Chen,Ya-Qin Zhang

from arxiv, 8 pages, 9 figures

In autonomous driving, Vehicle-Infrastructure Cooperative 3D Object Detection (VIC3D) makes use of multi-view cameras from both vehicles and traffic infrastructure, providing a global vantage point with rich semantic context of road conditions beyond a single vehicle viewpoint. Two major challenges prevail in VIC3D: 1) inherent calibration noise when fusing multi-view images, caused by time asynchrony across cameras; 2) information loss when projecting 2D features into 3D space. To address these issues, We propose a novel 3D object detection framework, Vehicles-Infrastructure Multi-view Intermediate fusion (VIMI). First, to fully exploit the holistic perspectives from both vehicles and infrastructure, we propose a Multi-scale Cross Attention (MCA) module that fuses infrastructure and vehicle features on selective multi-scales to correct the calibration noise introduced by camera asynchrony. Then, we design a Camera-aware Channel Masking (CCM) module that uses camera parameters as priors to augment the fused features. We further introduce a Feature Compression (FC) module with channel and spatial compression blocks to reduce the size of transmitted features for enhanced efficiency. Experiments show that VIMI achieves 15.61% overall AP_3D and 21.44% AP_BEV on the new VIC3D dataset, DAIR-V2X-C, significantly outperforming state-of-the-art early fusion and late fusion methods with comparable transmission cost.

翻译：在自动驾驶中，车路协同三维物体检测（VIC3D）利用车辆和交通基础设施的多视角摄像头，提供超越单一车辆视角的全局视野及丰富的道路语义上下文。VIC3D面临两大核心挑战：1）多视角图像融合时因跨摄像头时间异步引起的固有标定噪声；2）将二维特征投影至三维空间时的信息损失。为解决上述问题，我们提出一种新型三维物体检测框架——车-路多视角中间融合（VIMI）。首先，为充分挖掘车路双方的全局视角，我们设计多尺度交叉注意力（MCA）模块，在选择性多尺度上融合基础设施与车辆特征，以修正摄像头异步引入的标定噪声。其次，我们提出摄像头感知通道掩码（CCM）模块，利用摄像头参数作为先验增强融合特征。此外，引入包含通道压缩与空间压缩块的特征压缩（FC）模块，减小传输特征尺寸以提升效率。实验表明，VIMI在新型VIC3D数据集DAIR-V2X-C上实现整体AP_3D 15.61%和AP_BEV 21.44%，以可比传输代价显著超越现有最优的早期融合与晚期融合方法。

0

相关内容

3D是英文“Three Dimensions”的简称，中文是指三维、三个维度、三个坐标，即有长、有宽、有高，换句话说，就是立体的，是相对于只有长和宽的平面（2D）而言。

【CVPR2023】Mask3D:通过学习掩码3D先验对2D视觉transformer进行预训练

【CVPR2023】Mask3D:通过学习掩码3D先验对2D视觉transformer进行预训练

专知会员服务

24+阅读 · 2023年4月9日

【CVPR 2023】虚拟稀疏卷积的多模态三维目标检测

【CVPR 2023】虚拟稀疏卷积的多模态三维目标检测

专知会员服务

25+阅读 · 2023年3月11日

【CVPR2022】CAT-Det:用于多模态三维物体检测的对比增强Transformer

【CVPR2022】CAT-Det:用于多模态三维物体检测的对比增强Transformer

专知会员服务

19+阅读 · 2022年4月7日

【CVPR 2022】基于时空解耦与重耦的RGB-D动作识别 Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based Motion Recognition

【CVPR 2022】基于时空解耦与重耦的RGB-D动作识别 Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based Motion Recognition

专知会员服务

14+阅读 · 2022年3月19日

【CVPR2022】自动驾驶中的伪双目三维目标检测，Pseudo-Stereo for Monocular 3D Object Detection in Autonomous Driving

【CVPR2022】自动驾驶中的伪双目三维目标检测，Pseudo-Stereo for Monocular 3D Object Detection in Autonomous Driving

专知会员服务

18+阅读 · 2022年3月19日

【CVPR 2022】一种无需使用负样本的自监督学习方法，Self-Supervised Predictive Learning: A Negative-Free Method for Sound Source Localization in Visual Scenes

【CVPR 2022】一种无需使用负样本的自监督学习方法，Self-Supervised Predictive Learning: A Negative-Free Method for Sound Source Localization in Visual Scenes

专知会员服务

15+阅读 · 2022年3月12日

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

专知会员服务

27+阅读 · 2022年3月3日

[CVPR 2020 Oral-牛津] RandLA-Net:大场景三维点云语义分割新框架

[CVPR 2020 Oral-牛津] RandLA-Net:大场景三维点云语义分割新框架

专知会员服务

26+阅读 · 2020年3月15日

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

专知会员服务

17+阅读 · 2020年3月9日

【CVPR 2019 | tutorial】自主汽车的感知、预测和大规模数据采集：Perception, Prediction, and Large Scale Data Collection for Autonomous Cars

【CVPR 2019 | tutorial】自主汽车的感知、预测和大规模数据采集：Perception, Prediction, and Large Scale Data Collection for Autonomous Cars

专知会员服务

33+阅读 · 2019年11月28日

ECCV 2022 | 港中文MMLab：基于Transformer的光流

ECCV 2022 | 港中文MMLab：基于Transformer的光流

PaperWeekly

0+阅读 · 2022年9月2日

BEVFormer：基于Transformer的自动驾驶BEV纯视觉感知

BEVFormer：基于Transformer的自动驾驶BEV纯视觉感知

PaperWeekly

1+阅读 · 2022年6月21日

大白话用Transformer做BEV 3D目标检测

大白话用Transformer做BEV 3D目标检测

PaperWeekly

1+阅读 · 2022年6月7日

【泡泡汇总】CVPR2019 SLAM Paperlist

【泡泡汇总】CVPR2019 SLAM Paperlist

泡泡机器人SLAM

14+阅读 · 2019年6月12日

【泡泡一分钟】三维卷积神经网络实现实时非模态三维目标检测

【泡泡一分钟】三维卷积神经网络实现实时非模态三维目标检测

泡泡机器人SLAM

12+阅读 · 2019年5月20日

简评 | Video Action Recognition 的近期进展

简评 | Video Action Recognition 的近期进展

极市平台

20+阅读 · 2019年4月21日

CVPR2019 | Stereo R-CNN 3D 目标检测

CVPR2019 | Stereo R-CNN 3D 目标检测

极市平台

27+阅读 · 2019年3月10日

【泡泡一分钟】Trifo-VIO：使用点和线的稳健且高效的双目视觉惯导里程计

【泡泡一分钟】Trifo-VIO：使用点和线的稳健且高效的双目视觉惯导里程计

泡泡机器人SLAM

13+阅读 · 2018年12月20日

Single-Shot Object Detection with Enriched Semantics

Single-Shot Object Detection with Enriched Semantics

统计学习与视觉计算组

14+阅读 · 2018年8月29日

【泡泡一分钟】将3D全卷积网络应用于车辆激光点云处理（IROS-11）

【泡泡一分钟】将3D全卷积网络应用于车辆激光点云处理（IROS-11）

泡泡机器人SLAM

13+阅读 · 2018年3月23日

社交媒体多模态品牌追踪与事件检测

国家自然科学基金

7+阅读 · 2014年12月31日

高精度实时水汽Raman激光雷达自标定方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于混合属性分析的人体行为识别方法研究

国家自然科学基金

2+阅读 · 2013年12月31日

全光纤Fabry-Perot滤波器的高光谱水汽探测拉曼激光雷达技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于视觉注意和稀疏表示的行人检测与跟踪方法研究

国家自然科学基金

3+阅读 · 2013年12月31日

基于先验知识的三维点云鲁棒处理技术研究

国家自然科学基金

1+阅读 · 2012年12月31日

动态纹理视频识别关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于三维视频的人脸表情识别研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于边缘点的折反射图像立体匹配与三维重建研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于2D视频视觉关注度的3D重建方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

Real-Time Joint Simulation of LiDAR Perception and Motion Planning for Automated Driving

Real-Time Joint Simulation of LiDAR Perception and Motion Planning for Automated Driving

Arxiv

0+阅读 · 2023年5月11日

Multi-Task Learning based Video Anomaly Detection with Attention

Arxiv

0+阅读 · 2023年5月11日

Multi-modal Multi-level Fusion for 3D Single Object Tracking

Arxiv

0+阅读 · 2023年5月11日

PVT-SSD: Single-Stage 3D Object Detector with Point-Voxel Transformer

Arxiv

0+阅读 · 2023年5月11日

Event-based Human Pose Tracking by Spiking Spatiotemporal Transformer

Arxiv

0+阅读 · 2023年5月10日

Multi-Task Learning for Visual Scene Understanding

Arxiv

29+阅读 · 2022年3月28日

3D Object Detection for Autonomous Driving: A Survey

Arxiv

12+阅读 · 2021年6月21日

MV-YOLO: Motion Vector-aided Tracking by Semantic Object Detection

Arxiv

10+阅读 · 2018年4月30日

End-to-End Dense Video Captioning with Masked Transformer

Arxiv

14+阅读 · 2018年4月3日

Order-Free RNN with Visual Attention for Multi-Label Classification

Arxiv

16+阅读 · 2017年12月20日

VIP会员

文章信息

相关主题

最新内容

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

2+阅读 · 今天14:49

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

3+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

5+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

7+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

10+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

11+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

15+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

8+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

相关VIP内容

【CVPR2023】Mask3D:通过学习掩码3D先验对2D视觉transformer进行预训练

【CVPR2023】Mask3D:通过学习掩码3D先验对2D视觉transformer进行预训练

专知会员服务

24+阅读 · 2023年4月9日

【CVPR 2023】虚拟稀疏卷积的多模态三维目标检测

【CVPR 2023】虚拟稀疏卷积的多模态三维目标检测

专知会员服务

25+阅读 · 2023年3月11日

【CVPR2022】CAT-Det:用于多模态三维物体检测的对比增强Transformer

【CVPR2022】CAT-Det:用于多模态三维物体检测的对比增强Transformer

专知会员服务

19+阅读 · 2022年4月7日

【CVPR 2022】基于时空解耦与重耦的RGB-D动作识别 Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based Motion Recognition

【CVPR 2022】基于时空解耦与重耦的RGB-D动作识别 Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based Motion Recognition

专知会员服务

14+阅读 · 2022年3月19日

【CVPR2022】自动驾驶中的伪双目三维目标检测，Pseudo-Stereo for Monocular 3D Object Detection in Autonomous Driving

【CVPR2022】自动驾驶中的伪双目三维目标检测，Pseudo-Stereo for Monocular 3D Object Detection in Autonomous Driving

专知会员服务

18+阅读 · 2022年3月19日

【CVPR 2022】一种无需使用负样本的自监督学习方法，Self-Supervised Predictive Learning: A Negative-Free Method for Sound Source Localization in Visual Scenes

【CVPR 2022】一种无需使用负样本的自监督学习方法，Self-Supervised Predictive Learning: A Negative-Free Method for Sound Source Localization in Visual Scenes

专知会员服务

15+阅读 · 2022年3月12日

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

专知会员服务

27+阅读 · 2022年3月3日

[CVPR 2020 Oral-牛津] RandLA-Net:大场景三维点云语义分割新框架

[CVPR 2020 Oral-牛津] RandLA-Net:大场景三维点云语义分割新框架

专知会员服务

26+阅读 · 2020年3月15日

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

专知会员服务

17+阅读 · 2020年3月9日

【CVPR 2019 | tutorial】自主汽车的感知、预测和大规模数据采集：Perception, Prediction, and Large Scale Data Collection for Autonomous Cars

【CVPR 2019 | tutorial】自主汽车的感知、预测和大规模数据采集：Perception, Prediction, and Large Scale Data Collection for Autonomous Cars

专知会员服务

33+阅读 · 2019年11月28日

热门VIP内容

开通专知VIP会员享更多权益服务

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

相关资讯

ECCV 2022 | 港中文MMLab：基于Transformer的光流

ECCV 2022 | 港中文MMLab：基于Transformer的光流

PaperWeekly

0+阅读 · 2022年9月2日

BEVFormer：基于Transformer的自动驾驶BEV纯视觉感知

BEVFormer：基于Transformer的自动驾驶BEV纯视觉感知

PaperWeekly

1+阅读 · 2022年6月21日

大白话用Transformer做BEV 3D目标检测

大白话用Transformer做BEV 3D目标检测

PaperWeekly

1+阅读 · 2022年6月7日

【泡泡汇总】CVPR2019 SLAM Paperlist

【泡泡汇总】CVPR2019 SLAM Paperlist

泡泡机器人SLAM

14+阅读 · 2019年6月12日

【泡泡一分钟】三维卷积神经网络实现实时非模态三维目标检测

【泡泡一分钟】三维卷积神经网络实现实时非模态三维目标检测

泡泡机器人SLAM

12+阅读 · 2019年5月20日

简评 | Video Action Recognition 的近期进展

简评 | Video Action Recognition 的近期进展

极市平台

20+阅读 · 2019年4月21日

CVPR2019 | Stereo R-CNN 3D 目标检测

CVPR2019 | Stereo R-CNN 3D 目标检测

极市平台

27+阅读 · 2019年3月10日

【泡泡一分钟】Trifo-VIO：使用点和线的稳健且高效的双目视觉惯导里程计

【泡泡一分钟】Trifo-VIO：使用点和线的稳健且高效的双目视觉惯导里程计

泡泡机器人SLAM

13+阅读 · 2018年12月20日

Single-Shot Object Detection with Enriched Semantics

Single-Shot Object Detection with Enriched Semantics

统计学习与视觉计算组

14+阅读 · 2018年8月29日

【泡泡一分钟】将3D全卷积网络应用于车辆激光点云处理（IROS-11）

【泡泡一分钟】将3D全卷积网络应用于车辆激光点云处理（IROS-11）

泡泡机器人SLAM

13+阅读 · 2018年3月23日

相关论文

Real-Time Joint Simulation of LiDAR Perception and Motion Planning for Automated Driving

Real-Time Joint Simulation of LiDAR Perception and Motion Planning for Automated Driving

Arxiv

0+阅读 · 2023年5月11日

Multi-Task Learning based Video Anomaly Detection with Attention

Arxiv

0+阅读 · 2023年5月11日

Multi-modal Multi-level Fusion for 3D Single Object Tracking

Arxiv

0+阅读 · 2023年5月11日

PVT-SSD: Single-Stage 3D Object Detector with Point-Voxel Transformer

Arxiv

0+阅读 · 2023年5月11日

Event-based Human Pose Tracking by Spiking Spatiotemporal Transformer

Arxiv

0+阅读 · 2023年5月10日

Multi-Task Learning for Visual Scene Understanding

Arxiv

29+阅读 · 2022年3月28日

3D Object Detection for Autonomous Driving: A Survey

Arxiv

12+阅读 · 2021年6月21日

MV-YOLO: Motion Vector-aided Tracking by Semantic Object Detection

Arxiv

10+阅读 · 2018年4月30日

End-to-End Dense Video Captioning with Masked Transformer

Arxiv

14+阅读 · 2018年4月3日

Order-Free RNN with Visual Attention for Multi-Label Classification

Arxiv

16+阅读 · 2017年12月20日

相关基金

社交媒体多模态品牌追踪与事件检测

国家自然科学基金

7+阅读 · 2014年12月31日

高精度实时水汽Raman激光雷达自标定方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于混合属性分析的人体行为识别方法研究

国家自然科学基金

2+阅读 · 2013年12月31日

全光纤Fabry-Perot滤波器的高光谱水汽探测拉曼激光雷达技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于视觉注意和稀疏表示的行人检测与跟踪方法研究

国家自然科学基金

3+阅读 · 2013年12月31日

基于先验知识的三维点云鲁棒处理技术研究

国家自然科学基金

1+阅读 · 2012年12月31日

动态纹理视频识别关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于三维视频的人脸表情识别研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于边缘点的折反射图像立体匹配与三维重建研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于2D视频视觉关注度的3D重建方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员