Pretrained backbones with fine-tuning have been widely adopted in 2D vision and natural language processing tasks and demonstrated significant advantages to task-specific networks. In this paper, we present a pretrained 3D backbone, named {\SST}, which first outperforms all state-of-the-art methods in downstream 3D indoor scene understanding tasks. Our backbone network is based on a 3D Swin transformer and carefully designed to efficiently conduct self-attention on sparse voxels with linear memory complexity and capture the irregularity of point signals via generalized contextual relative positional embedding. Based on this backbone design, we pretrained a large {\SST} model on a synthetic Structed3D dataset that is 10 times larger than the ScanNet dataset and fine-tuned the pretrained model in various downstream real-world indoor scene understanding tasks. The results demonstrate that our model pretrained on the synthetic dataset not only exhibits good generality in both downstream segmentation and detection on real 3D point datasets, but also surpasses the state-of-the-art methods on downstream tasks after fine-tuning with +2.3 mIoU and +2.2 mIoU on S3DIS Area5 and 6-fold semantic segmentation, +2.1 mIoU on ScanNet segmentation (val), +1.9 [email protected] on ScanNet detection, +8.1 [email protected] on S3DIS detection. Our method demonstrates the great potential of pretrained 3D backbones with fine-tuning for 3D understanding tasks. The code and models are available at https://github.com/microsoft/Swin3D .


翻译:预训练主干网络结合微调已在二维视觉和自然语言处理任务中得到广泛应用,并展现出相比任务特定网络的显著优势。本文提出一种名为{SST}的预训练3D主干网络,该网络首次在下游3D室内场景理解任务中超越所有最先进方法。我们的主干网络基于3D Swin transformer设计,通过线性内存复杂度在稀疏体素上高效实现自注意力机制,并利用广义上下文相对位置嵌入捕捉点信号的不规则性。基于该主干设计,我们在合成数据集Structed3D(规模是ScanNet数据集的10倍)上预训练了一个大型{SST}模型,并在多种下游真实室内场景理解任务中对预训练模型进行微调。结果表明,在合成数据集上预训练的模型不仅在对真实3D点云数据集的下游分割与检测任务中展现出良好泛化性,而且经微调后在下游任务中超越最先进方法:在S3DIS Area5与6折语义分割上分别提升+2.3 mIoU和+2.2 mIoU,在ScanNet分割(验证集)提升+2.1 mIoU,在ScanNet检测提升+1.9 [email protected],在S3DIS检测提升+8.1 [email protected]。本方法展示了预训练3D主干网络结合微调在3D理解任务中的巨大潜力。代码与模型已开源至https://github.com/microsoft/Swin3D。

0
下载
关闭预览

相关内容

[CVPR 2021] 序列到序列对比学习的文本识别
专知会员服务
29+阅读 · 2021年4月14日
专知会员服务
65+阅读 · 2021年4月11日
【CVPR2021】用Transformers无监督预训练进行目标检测
专知会员服务
58+阅读 · 2021年3月3日
【Google论文】ALBERT:自我监督学习语言表达的精简BERT
专知会员服务
24+阅读 · 2019年11月4日
论文浅尝 | 弱监督下极简的视觉语言预训练模型
开放知识图谱
1+阅读 · 2022年9月26日
大白话用Transformer做BEV 3D目标检测
PaperWeekly
1+阅读 · 2022年6月7日
一文读懂最强中文NLP预训练模型ERNIE
AINLP
25+阅读 · 2019年10月22日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
20+阅读 · 2017年12月17日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Arxiv
12+阅读 · 2019年1月24日
VIP会员
最新内容
马赛克战:俄乌战场透析
专知会员服务
1+阅读 · 今天4:12
《利用人工智能增强军事决策》
专知会员服务
0+阅读 · 今天4:09
《自动机器学习在军事数据耕耘法中的应用》
专知会员服务
1+阅读 · 今天4:02
为何指挥所生存能力要求范式转变
专知会员服务
0+阅读 · 今天3:54
打造“新蛛网”模式与高科技动员
专知会员服务
0+阅读 · 今天3:33
“蛛网”行动一周年:远程无人机战争
专知会员服务
0+阅读 · 今天3:23
【剑桥博士论文】智能体-环境协同优化
专知会员服务
5+阅读 · 6月9日
为初级军官战术训练设计生成式人工智能平台
专知会员服务
8+阅读 · 6月9日
《美军条令:作战伤员后送保障》
专知会员服务
6+阅读 · 6月9日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员