Swin3D: A Pretrained Transformer Backbone for 3D Indoor Scene Understanding - 专知论文

会员服务 ·

0

室内场景 · 场景理解 · 预训练 · DIS · 数据集 ·

2023 年 4 月 14 日

Swin3D: A Pretrained Transformer Backbone for 3D Indoor Scene Understanding

翻译：Swin3D：面向3D室内场景理解的预训练Transformer主干网络

Yu-Qi Yang,Yu-Xiao Guo,Jian-Yu Xiong,Yang Liu,Hao Pan,Peng-Shuai Wang,Xin Tong,Baining Guo

Pretrained backbones with fine-tuning have been widely adopted in 2D vision and natural language processing tasks and demonstrated significant advantages to task-specific networks. In this paper, we present a pretrained 3D backbone, named {\SST}, which first outperforms all state-of-the-art methods in downstream 3D indoor scene understanding tasks. Our backbone network is based on a 3D Swin transformer and carefully designed to efficiently conduct self-attention on sparse voxels with linear memory complexity and capture the irregularity of point signals via generalized contextual relative positional embedding. Based on this backbone design, we pretrained a large {\SST} model on a synthetic Structed3D dataset that is 10 times larger than the ScanNet dataset and fine-tuned the pretrained model in various downstream real-world indoor scene understanding tasks. The results demonstrate that our model pretrained on the synthetic dataset not only exhibits good generality in both downstream segmentation and detection on real 3D point datasets, but also surpasses the state-of-the-art methods on downstream tasks after fine-tuning with +2.3 mIoU and +2.2 mIoU on S3DIS Area5 and 6-fold semantic segmentation, +2.1 mIoU on ScanNet segmentation (val), +1.9 [email protected] on ScanNet detection, +8.1 [email protected] on S3DIS detection. Our method demonstrates the great potential of pretrained 3D backbones with fine-tuning for 3D understanding tasks. The code and models are available at https://github.com/microsoft/Swin3D .

翻译：预训练主干网络结合微调已在二维视觉和自然语言处理任务中得到广泛应用，并展现出相比任务特定网络的显著优势。本文提出一种名为{SST}的预训练3D主干网络，该网络首次在下游3D室内场景理解任务中超越所有最先进方法。我们的主干网络基于3D Swin transformer设计，通过线性内存复杂度在稀疏体素上高效实现自注意力机制，并利用广义上下文相对位置嵌入捕捉点信号的不规则性。基于该主干设计，我们在合成数据集Structed3D（规模是ScanNet数据集的10倍）上预训练了一个大型{SST}模型，并在多种下游真实室内场景理解任务中对预训练模型进行微调。结果表明，在合成数据集上预训练的模型不仅在对真实3D点云数据集的下游分割与检测任务中展现出良好泛化性，而且经微调后在下游任务中超越最先进方法：在S3DIS Area5与6折语义分割上分别提升+2.3 mIoU和+2.2 mIoU，在ScanNet分割（验证集）提升+2.1 mIoU，在ScanNet检测提升+1.9 [email protected]，在S3DIS检测提升+8.1 [email protected]。本方法展示了预训练3D主干网络结合微调在3D理解任务中的巨大潜力。代码与模型已开源至https://github.com/microsoft/Swin3D。

0

相关内容

室内场景

【CVPR2023】Mask3D:通过学习掩码3D先验对2D视觉transformer进行预训练

【CVPR2023】Mask3D:通过学习掩码3D先验对2D视觉transformer进行预训练

专知会员服务

24+阅读 · 2023年4月9日

【CVPR2022】自动驾驶中的伪双目三维目标检测，Pseudo-Stereo for Monocular 3D Object Detection in Autonomous Driving

【CVPR2022】自动驾驶中的伪双目三维目标检测，Pseudo-Stereo for Monocular 3D Object Detection in Autonomous Driving

专知会员服务

18+阅读 · 2022年3月19日

【CVPR 2022-UCSD&英伟达】GroupViT:从文本监督中产生语义分割，Semantic Segmentation Emerges from Text Supervision

【CVPR 2022-UCSD&英伟达】GroupViT:从文本监督中产生语义分割，Semantic Segmentation Emerges from Text Supervision

专知会员服务

12+阅读 · 2022年3月9日

【CVPR 2022】单目3D语义场景完成框架，MonoScene: Monocular 3D Semantic Scene Completion

【CVPR 2022】单目3D语义场景完成框架，MonoScene: Monocular 3D Semantic Scene Completion

专知会员服务

16+阅读 · 2022年3月3日

NeurIPS 2021教程|OpenAI-Lilian Weng等：自监督学习与对比学习，105页ppt，

NeurIPS 2021教程|OpenAI-Lilian Weng等：自监督学习与对比学习，105页ppt，

专知会员服务

78+阅读 · 2021年12月10日

ICCV'21 Oral｜拒绝调参，显著提点！检测分割任务的新损失函数RS Loss开源

专知会员服务

16+阅读 · 2021年8月11日

[CVPR 2021] 序列到序列对比学习的文本识别

[CVPR 2021] 序列到序列对比学习的文本识别

专知会员服务

29+阅读 · 2021年4月14日

SiT: 自监督视觉Transformer

专知会员服务

65+阅读 · 2021年4月11日

【CVPR2021】用Transformers无监督预训练进行目标检测

【CVPR2021】用Transformers无监督预训练进行目标检测

专知会员服务

58+阅读 · 2021年3月3日

【Google论文】ALBERT:自我监督学习语言表达的精简BERT

【Google论文】ALBERT:自我监督学习语言表达的精简BERT

专知会员服务

24+阅读 · 2019年11月4日

论文浅尝 | 弱监督下极简的视觉语言预训练模型

论文浅尝 | 弱监督下极简的视觉语言预训练模型

开放知识图谱

1+阅读 · 2022年9月26日

CVPR 2022 | 提高小数据集利用效率，复旦等提出分层级联ViT网络

CVPR 2022 | 提高小数据集利用效率，复旦等提出分层级联ViT网络

机器之心

0+阅读 · 2022年7月15日

图神经网络也能用作CV骨干模型，华为诺亚ViG架构媲美CNN、Transformer

图神经网络也能用作CV骨干模型，华为诺亚ViG架构媲美CNN、Transformer

机器之心

0+阅读 · 2022年6月26日

大白话用Transformer做BEV 3D目标检测

大白话用Transformer做BEV 3D目标检测

PaperWeekly

1+阅读 · 2022年6月7日

兼具Swin和ViT的优势！可用于MAE预训练的超简单层次Transformer结构

兼具Swin和ViT的优势！可用于MAE预训练的超简单层次Transformer结构

PaperWeekly

0+阅读 · 2022年6月5日

一文读懂最强中文NLP预训练模型ERNIE

一文读懂最强中文NLP预训练模型ERNIE

AINLP

25+阅读 · 2019年10月22日

【泡泡一分钟】三维卷积神经网络实现实时非模态三维目标检测

【泡泡一分钟】三维卷积神经网络实现实时非模态三维目标检测

泡泡机器人SLAM

12+阅读 · 2019年5月20日

CVPR2019 | 15篇论文速递（涵盖目标检测、语义分割和姿态估计等方向）

CVPR2019 | 15篇论文速递（涵盖目标检测、语义分割和姿态估计等方向）

AI研习社

15+阅读 · 2019年5月8日

ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

全球人工智能

20+阅读 · 2017年12月17日

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

机器学习研究会

20+阅读 · 2017年12月17日

AG-WUS-PcG-lncRNA互作对梅多雌蕊发育的调控

国家自然科学基金

0+阅读 · 2015年12月31日

SIP1-SHR-SCR蛋白复合体调控根分生组织发育分子机制的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于网络的情感语义词典的自动构建技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

Wip1对胚胎干细胞自我更新、分化与致瘤性的作用及其分子机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

百纳米三维石墨烯网络的CVD合成及其在超快能源存储的应用

国家自然科学基金

0+阅读 · 2013年12月31日

自然场景下机器人大范围视觉伺服研究

国家自然科学基金

1+阅读 · 2012年12月31日

复合阻挡涂层对SiC/Ti基复合材料界面反应的调控研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于抗氧化和促造血增殖研究鸡血藤及其活性成分群（JXT-TP50）双重造血调控作用的分子机制

国家自然科学基金

0+阅读 · 2012年12月31日

三维介质阻挡放电斑图研究

国家自然科学基金

0+阅读 · 2012年12月31日

玉米杂种优势转录组新转录本和特异差异表达基因及其调控代谢功能的研究

国家自然科学基金

0+阅读 · 2012年12月31日

ActiveAED: A Human in the Loop Improves Annotation Error Detection

ActiveAED: A Human in the Loop Improves Annotation Error Detection

Arxiv

2+阅读 · 2023年5月31日

Point-GCC: Universal Self-supervised 3D Scene Pre-training via Geometry-Color Contrast

Arxiv

0+阅读 · 2023年5月31日

GNOT: A General Neural Operator Transformer for Operator Learning

Arxiv

0+阅读 · 2023年5月31日

Occ-BEV: Multi-Camera Unified Pre-training via 3D Scene Reconstruction

Arxiv

0+阅读 · 2023年5月30日

Nested Hierarchical Transformer: Towards Accurate, Data-Efficient and Interpretable Visual Understanding

Arxiv

12+阅读 · 2021年12月30日

UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training

Arxiv

15+阅读 · 2020年2月28日

LayoutLM: Pre-training of Text and Layout for Document Image Understanding

LayoutLM: Pre-training of Text and Layout for Document Image Understanding

Arxiv

12+阅读 · 2020年2月19日

TinyBERT: Distilling BERT for Natural Language Understanding

TinyBERT: Distilling BERT for Natural Language Understanding

Arxiv

11+阅读 · 2019年9月23日

XLNet: Generalized Autoregressive Pretraining for Language Understanding

Arxiv

14+阅读 · 2019年6月19日

3D Backbone Network for 3D Object Detection

Arxiv

12+阅读 · 2019年1月24日

VIP会员

文章信息

相关主题

最新内容

论文解读 | 医学图像修复中的扩散模型：挑战、分类与未来方向

论文解读 | 医学图像修复中的扩散模型：挑战、分类与未来方向

专知会员服务

0+阅读 · 7月28日

博士论文 | 从算法到基础模型：强化学习的统一视角

博士论文 | 从算法到基础模型：强化学习的统一视角

专知会员服务

1+阅读 · 7月28日

面向国防作战的最佳自主与蜂群无人机技术

面向国防作战的最佳自主与蜂群无人机技术

专知会员服务

5+阅读 · 7月28日

《异构人类团队的协作决策过程混合建模研究》

《异构人类团队的协作决策过程混合建模研究》

专知会员服务

5+阅读 · 7月28日

《C5ISR系统中的注意力动态与自适应决策支持研究：视觉与多模态注意力引导对任务绩效影响的递归量化分析》最新36页报告

《C5ISR系统中的注意力动态与自适应决策支持研究：视觉与多模态注意力引导对任务绩效影响的递归量化分析》最新36页报告

专知会员服务

4+阅读 · 7月28日

《设计思维中的人机协作：生成式人工智能对共情访谈影响的探究》140页

《设计思维中的人机协作：生成式人工智能对共情访谈影响的探究》140页

专知会员服务

4+阅读 · 7月28日

博士论文 | 面向大模型推理的内存高效算法

博士论文 | 面向大模型推理的内存高效算法

专知会员服务

5+阅读 · 7月27日

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

专知会员服务

7+阅读 · 7月27日

《无人系统互操作性导论——无人系统联合架构（JAUS）》

《无人系统互操作性导论——无人系统联合架构（JAUS）》

专知会员服务

13+阅读 · 7月27日

美空军新型反无人机部队初探

美空军新型反无人机部队初探

专知会员服务

8+阅读 · 7月27日

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

专知会员服务

7+阅读 · 7月27日

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

专知会员服务

5+阅读 · 7月27日

《防空交战流程的概率建模研究》

《防空交战流程的概率建模研究》

专知会员服务

12+阅读 · 7月27日

ICML 2026 教程 | 数值优化理论还重要吗？

ICML 2026 教程 | 数值优化理论还重要吗？

专知会员服务

7+阅读 · 7月26日

ICM 2026 | 陶哲轩：人工智能时代的数学

ICM 2026 | 陶哲轩：人工智能时代的数学

专知会员服务

10+阅读 · 7月26日

相关VIP内容

【CVPR2023】Mask3D:通过学习掩码3D先验对2D视觉transformer进行预训练

【CVPR2023】Mask3D:通过学习掩码3D先验对2D视觉transformer进行预训练

专知会员服务

24+阅读 · 2023年4月9日

【CVPR2022】自动驾驶中的伪双目三维目标检测，Pseudo-Stereo for Monocular 3D Object Detection in Autonomous Driving

【CVPR2022】自动驾驶中的伪双目三维目标检测，Pseudo-Stereo for Monocular 3D Object Detection in Autonomous Driving

专知会员服务

18+阅读 · 2022年3月19日

【CVPR 2022-UCSD&英伟达】GroupViT:从文本监督中产生语义分割，Semantic Segmentation Emerges from Text Supervision

【CVPR 2022-UCSD&英伟达】GroupViT:从文本监督中产生语义分割，Semantic Segmentation Emerges from Text Supervision

专知会员服务

12+阅读 · 2022年3月9日

【CVPR 2022】单目3D语义场景完成框架，MonoScene: Monocular 3D Semantic Scene Completion

【CVPR 2022】单目3D语义场景完成框架，MonoScene: Monocular 3D Semantic Scene Completion

专知会员服务

16+阅读 · 2022年3月3日

NeurIPS 2021教程|OpenAI-Lilian Weng等：自监督学习与对比学习，105页ppt，

NeurIPS 2021教程|OpenAI-Lilian Weng等：自监督学习与对比学习，105页ppt，

专知会员服务

78+阅读 · 2021年12月10日

ICCV'21 Oral｜拒绝调参，显著提点！检测分割任务的新损失函数RS Loss开源

专知会员服务

16+阅读 · 2021年8月11日

[CVPR 2021] 序列到序列对比学习的文本识别

[CVPR 2021] 序列到序列对比学习的文本识别

专知会员服务

29+阅读 · 2021年4月14日

SiT: 自监督视觉Transformer

专知会员服务

65+阅读 · 2021年4月11日

【CVPR2021】用Transformers无监督预训练进行目标检测

【CVPR2021】用Transformers无监督预训练进行目标检测

专知会员服务

58+阅读 · 2021年3月3日

【Google论文】ALBERT:自我监督学习语言表达的精简BERT

【Google论文】ALBERT:自我监督学习语言表达的精简BERT

专知会员服务

24+阅读 · 2019年11月4日

热门VIP内容

开通专知VIP会员享更多权益服务

博士论文 | 从算法到基础模型：强化学习的统一视角

《异构人类团队的协作决策过程混合建模研究》

论文解读 | 医学图像修复中的扩散模型：挑战、分类与未来方向

面向国防作战的最佳自主与蜂群无人机技术

相关资讯

论文浅尝 | 弱监督下极简的视觉语言预训练模型

论文浅尝 | 弱监督下极简的视觉语言预训练模型

开放知识图谱

1+阅读 · 2022年9月26日

CVPR 2022 | 提高小数据集利用效率，复旦等提出分层级联ViT网络

CVPR 2022 | 提高小数据集利用效率，复旦等提出分层级联ViT网络

机器之心

0+阅读 · 2022年7月15日

图神经网络也能用作CV骨干模型，华为诺亚ViG架构媲美CNN、Transformer

图神经网络也能用作CV骨干模型，华为诺亚ViG架构媲美CNN、Transformer

机器之心

0+阅读 · 2022年6月26日

大白话用Transformer做BEV 3D目标检测

大白话用Transformer做BEV 3D目标检测

PaperWeekly

1+阅读 · 2022年6月7日

兼具Swin和ViT的优势！可用于MAE预训练的超简单层次Transformer结构

兼具Swin和ViT的优势！可用于MAE预训练的超简单层次Transformer结构

PaperWeekly

0+阅读 · 2022年6月5日

一文读懂最强中文NLP预训练模型ERNIE

一文读懂最强中文NLP预训练模型ERNIE

AINLP

25+阅读 · 2019年10月22日

【泡泡一分钟】三维卷积神经网络实现实时非模态三维目标检测

【泡泡一分钟】三维卷积神经网络实现实时非模态三维目标检测

泡泡机器人SLAM

12+阅读 · 2019年5月20日

CVPR2019 | 15篇论文速递（涵盖目标检测、语义分割和姿态估计等方向）

CVPR2019 | 15篇论文速递（涵盖目标检测、语义分割和姿态估计等方向）

AI研习社

15+阅读 · 2019年5月8日

ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

全球人工智能

20+阅读 · 2017年12月17日

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

机器学习研究会

20+阅读 · 2017年12月17日

相关论文

ActiveAED: A Human in the Loop Improves Annotation Error Detection

ActiveAED: A Human in the Loop Improves Annotation Error Detection

Arxiv

2+阅读 · 2023年5月31日

Point-GCC: Universal Self-supervised 3D Scene Pre-training via Geometry-Color Contrast

Arxiv

0+阅读 · 2023年5月31日

GNOT: A General Neural Operator Transformer for Operator Learning

Arxiv

0+阅读 · 2023年5月31日

Occ-BEV: Multi-Camera Unified Pre-training via 3D Scene Reconstruction

Arxiv

0+阅读 · 2023年5月30日

Nested Hierarchical Transformer: Towards Accurate, Data-Efficient and Interpretable Visual Understanding

Arxiv

12+阅读 · 2021年12月30日

UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training

Arxiv

15+阅读 · 2020年2月28日

LayoutLM: Pre-training of Text and Layout for Document Image Understanding

LayoutLM: Pre-training of Text and Layout for Document Image Understanding

Arxiv

12+阅读 · 2020年2月19日

TinyBERT: Distilling BERT for Natural Language Understanding

TinyBERT: Distilling BERT for Natural Language Understanding

Arxiv

11+阅读 · 2019年9月23日

XLNet: Generalized Autoregressive Pretraining for Language Understanding

Arxiv

14+阅读 · 2019年6月19日

3D Backbone Network for 3D Object Detection

Arxiv

12+阅读 · 2019年1月24日

相关基金

AG-WUS-PcG-lncRNA互作对梅多雌蕊发育的调控

国家自然科学基金

0+阅读 · 2015年12月31日

SIP1-SHR-SCR蛋白复合体调控根分生组织发育分子机制的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于网络的情感语义词典的自动构建技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

Wip1对胚胎干细胞自我更新、分化与致瘤性的作用及其分子机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

百纳米三维石墨烯网络的CVD合成及其在超快能源存储的应用

国家自然科学基金

0+阅读 · 2013年12月31日

自然场景下机器人大范围视觉伺服研究

国家自然科学基金

1+阅读 · 2012年12月31日

复合阻挡涂层对SiC/Ti基复合材料界面反应的调控研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于抗氧化和促造血增殖研究鸡血藤及其活性成分群（JXT-TP50）双重造血调控作用的分子机制

国家自然科学基金

0+阅读 · 2012年12月31日

三维介质阻挡放电斑图研究

国家自然科学基金

0+阅读 · 2012年12月31日

玉米杂种优势转录组新转录本和特异差异表达基因及其调控代谢功能的研究

国家自然科学基金

0+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员