As two fundamental representation modalities of 3D objects, 3D point clouds and multi-view 2D images record shape information from different domains of geometric structures and visual appearances. In the current deep learning era, remarkable progress in processing such two data modalities has been achieved through respectively customizing compatible 3D and 2D network architectures. However, unlike multi-view image-based 2D visual modeling paradigms, which have shown leading performance in several common 3D shape recognition benchmarks, point cloud-based 3D geometric modeling paradigms are still highly limited by insufficient learning capacity, due to the difficulty of extracting discriminative features from irregular geometric signals. In this paper, we explore the possibility of boosting deep 3D point cloud encoders by transferring visual knowledge extracted from deep 2D image encoders under a standard teacher-student distillation workflow. Generally, we propose PointMCD, a unified multi-view cross-modal distillation architecture, including a pretrained deep image encoder as the teacher and a deep point encoder as the student. To perform heterogeneous feature alignment between 2D visual and 3D geometric domains, we further investigate visibility-aware feature projection (VAFP), by which point-wise embeddings are reasonably aggregated into view-specific geometric descriptors. By pair-wisely aligning multi-view visual and geometric descriptors, we can obtain more powerful deep point encoders without exhausting and complicated network modification. Experiments on 3D shape classification, part segmentation, and unsupervised learning strongly validate the effectiveness of our method. The code and data will be publicly available at https://github.com/keeganhk/PointMCD.


翻译:作为三维物体的两种基本表示模态,三维点云和多视图二维图像分别从几何结构与视觉外观的不同领域记录形状信息。在当前深度学习时代,通过分别为三维和二维数据定制兼容的网络架构,处理这两种数据模态已取得显著进展。然而,与多视图图像驱动的二维视觉建模范式(已在多个常见三维形状识别基准中展现出领先性能)不同,基于点云的三维几何建模范式仍受限于学习能力不足,这源于从不规则几何信号中提取判别性特征的困难。本文探索了在标准师生蒸馏框架下,通过迁移从深度二维图像编码器中提取的视觉知识来增强深度三维点云编码器的可能性。我们提出了PointMCD——一种统一的多视图跨模态蒸馏架构,包含一个预训练深度图像编码器作为教师网络和一个深度点编码器作为学生网络。为实现二维视觉域与三维几何域间的异构特征对齐,我们进一步研究了可见性感知特征投影(VAFP),通过该机制将逐点嵌入合理聚合为视图特定的几何描述符。通过成对对齐多视图视觉与几何描述符,我们能够在无需繁琐复杂的网络修改下获得更强大的深度点云编码器。在三维形状分类、部件分割及无监督学习上的实验充分验证了方法的有效性。代码与数据将在https://github.com/keeganhk/PointMCD 公开。

0
下载
关闭预览

相关内容

中科院自动化所17篇CVPR 2022 新作速览!
专知会员服务
20+阅读 · 2022年3月19日
专知会员服务
64+阅读 · 2021年6月22日
图卷积神经网络蒸馏知识,Distillating Knowledge from GCN
专知会员服务
96+阅读 · 2020年3月25日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
50+阅读 · 2020年2月26日
【泡泡图灵智库】体积实例感知语义建图与3D对象发现
泡泡机器人SLAM
22+阅读 · 2019年9月7日
「Github」多模态机器学习文章阅读列表
专知
124+阅读 · 2019年8月15日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
互信息论文笔记
CreateAMind
23+阅读 · 2018年8月23日
【泡泡一分钟】学习紧密的几何特征(ICCV2017-17)
泡泡机器人SLAM
20+阅读 · 2018年5月8日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2023年5月30日
Arxiv
14+阅读 · 2021年3月10日
VIP会员
最新内容
重新思考无人机时代的生存能力
专知会员服务
2+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
2+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
3+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
3+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
5+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关资讯
【泡泡图灵智库】体积实例感知语义建图与3D对象发现
泡泡机器人SLAM
22+阅读 · 2019年9月7日
「Github」多模态机器学习文章阅读列表
专知
124+阅读 · 2019年8月15日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
互信息论文笔记
CreateAMind
23+阅读 · 2018年8月23日
【泡泡一分钟】学习紧密的几何特征(ICCV2017-17)
泡泡机器人SLAM
20+阅读 · 2018年5月8日
相关基金
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员