3D semantic scene completion (SSC) is an ill-posed task that requires inferring a dense 3D scene from incomplete observations. Previous methods either explicitly incorporate 3D geometric input or rely on learnt 3D prior behind monocular RGB images. However, 3D sensors such as LiDAR are expensive and intrusive while monocular cameras face challenges in modeling precise geometry due to the inherent ambiguity. In this work, we propose StereoScene for 3D Semantic Scene Completion (SSC), which explores taking full advantage of light-weight camera inputs without resorting to any external 3D sensors. Our key insight is to leverage stereo matching to resolve geometric ambiguity. To improve its robustness in unmatched areas, we introduce bird's-eye-view (BEV) representation to inspire hallucination ability with rich context information. On top of the stereo and BEV representations, a mutual interactive aggregation (MIA) module is carefully devised to fully unleash their power. Specifically, a Bi-directional Interaction Transformer (BIT) augmented with confidence re-weighting is used to encourage reliable prediction through mutual guidance while a Dual Volume Aggregation (DVA) module is designed to facilitate complementary aggregation. Experimental results on SemanticKITTI demonstrate that the proposed StereoScene outperforms the state-of-the-art camera-based methods by a large margin with a relative improvement of 26.9% in geometry and 38.6% in semantic.


翻译:三维语义场景补全(SSC)是一项病态任务,要求从不完整观测中推断出稠密的三维场景。现有方法要么显式引入三维几何输入,要么依赖单目RGB图像背后的学习先验。然而,激光雷达等三维传感器成本高昂且具有侵入性,而单目相机因固有的模糊性难以精确建模几何结构。本文提出用于三维语义场景补全的立体场景(StereoScene)方法,旨在充分利用轻量级相机输入,无需依赖任何外部三维传感器。我们的核心洞察是利用立体匹配解决几何模糊性。为提升其在无匹配区域的鲁棒性,我们引入鸟瞰图(BEV)表示,以丰富的上下文信息激发幻觉能力。基于立体与BEV表示,我们精心设计了双向交互聚合(MIA)模块以充分释放其潜力。具体而言,采用置信度重加权增强的双向交互Transformer(BIT)通过相互引导促进可靠预测,同时设计双体素聚合(DVA)模块实现互补聚合。在SemanticKITTI数据集上的实验表明,所提出的立体场景方法大幅超越现有最优基于相机的方法,几何和语义分别相对提升26.9%和38.6%。

0
下载
关闭预览

相关内容

【CVPR2023】NS3D:3D对象和关系的神经符号Grounding
专知会员服务
23+阅读 · 2023年3月26日
GNN 新基准!Long Range Graph Benchmark
图与推荐
0+阅读 · 2022年10月18日
跨域推荐最新前沿工作进展汇总
机器学习与推荐算法
0+阅读 · 2022年9月29日
17篇必看[知识图谱Knowledge Graphs] 论文@AAAI2020
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
CVPR2019 | Stereo R-CNN 3D 目标检测
极市平台
27+阅读 · 2019年3月10日
【泡泡一分钟】基于运动估计的激光雷达和相机标定方法
泡泡机器人SLAM
25+阅读 · 2019年1月17日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
15+阅读 · 2019年11月26日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
专知会员服务
1+阅读 · 今天7:28
消耗优势:美军的“精确规模化”概念
专知会员服务
7+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
8+阅读 · 6月15日
俄乌战场地面机器人如何改写战争规则
专知会员服务
9+阅读 · 6月14日
相关VIP内容
【CVPR2023】NS3D:3D对象和关系的神经符号Grounding
专知会员服务
23+阅读 · 2023年3月26日
相关资讯
GNN 新基准!Long Range Graph Benchmark
图与推荐
0+阅读 · 2022年10月18日
跨域推荐最新前沿工作进展汇总
机器学习与推荐算法
0+阅读 · 2022年9月29日
17篇必看[知识图谱Knowledge Graphs] 论文@AAAI2020
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
CVPR2019 | Stereo R-CNN 3D 目标检测
极市平台
27+阅读 · 2019年3月10日
【泡泡一分钟】基于运动估计的激光雷达和相机标定方法
泡泡机器人SLAM
25+阅读 · 2019年1月17日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员