Cross-modal contrastive distillation has recently been explored for learning effective 3D representations. However, existing methods focus primarily on modality-shared features, neglecting the modality-specific features during the pre-training process, which leads to suboptimal representations. In this paper, we theoretically analyze the limitations of current contrastive methods for 3D representation learning and propose a new framework, namely CMCR (Cross-Modal Comprehensive Representation Learning), to address these shortcomings. Our approach improves upon traditional methods by better integrating both modality-shared and modality-specific features. Specifically, we introduce masked image modeling and occupancy estimation tasks to guide the network in learning more comprehensive modality-specific features. Furthermore, we propose a novel multi-modal unified codebook that learns an embedding space shared across different modalities. Besides, we introduce geometry-enhanced masked image modeling to further boost 3D representation learning. Extensive experiments demonstrate that our method mitigates the challenges faced by traditional approaches and consistently outperforms existing image-to-LiDAR contrastive distillation methods in downstream tasks. Code will be available at https://github.com/Eaphan/CMCR.


翻译:跨模态对比蒸馏近来被研究用于学习有效的3D表示。然而,现有方法主要关注模态共享特征,在预训练过程中忽略了模态特定特征,导致表示效果欠佳。本文从理论上分析了当前对比方法在3D表示学习中的局限性,并提出新框架CMCR(跨模态全面表示学习)以解决这些不足。我们的方法通过更优地整合模态共享特征与模态特定特征,改进了传统方法。具体而言,我们引入遮蔽图像建模和占用估计任务,引导网络学习更全面的模态特定特征。此外,我们提出一种新颖的多模态统一码本,学习跨不同模态共享的嵌入空间。同时,我们引入几何增强的遮蔽图像建模,进一步促进3D表示学习。大量实验表明,我们的方法缓解了传统方法面临的挑战,并在下游任务中持续优于现有图像到激光雷达的对比蒸馏方法。代码将发布于https://github.com/Eaphan/CMCR。

0
下载
关闭预览

相关内容

综述|学习式3D表征最新进展与趋势
专知会员服务
9+阅读 · 6月5日
【ICML2022】几何多模态对比表示学习
专知会员服务
45+阅读 · 2022年7月17日
专知会员服务
26+阅读 · 2021年9月9日
专知会员服务
44+阅读 · 2021年7月1日
【2020 最新论文】对比学习中什么应该不是对比的?
专知会员服务
39+阅读 · 2020年8月16日
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
【ICML2020】对比多视角表示学习
专知
19+阅读 · 2020年6月28日
模型压缩 | 知识蒸馏经典解读
AINLP
11+阅读 · 2020年5月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
重新思考无人机时代的生存能力
专知会员服务
2+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
2+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
3+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
3+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
5+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员