Recent works in 3D multimodal learning have made remarkable progress. However, typically 3D multimodal models are only capable of handling point clouds. Compared to the emerging 3D representation technique, 3D Gaussian Splatting (3DGS), the spatially sparse point cloud cannot depict the texture information of 3D objects, resulting in inferior reconstruction capabilities. This limitation constrains the potential of point cloud-based 3D multimodal representation learning. In this paper, we present CLIP-GS, a novel multimodal representation learning framework grounded in 3DGS. We introduce the GS Tokenizer to generate serialized gaussian tokens, which are then processed through transformer layers pre-initialized with weights from point cloud models, resulting in the 3DGS embeddings. CLIP-GS leverages contrastive loss between 3DGS and the visual-text embeddings of CLIP, and we introduce an image voting loss to guide the directionality and convergence of gradient optimization. Furthermore, we develop an efficient way to generate triplets of 3DGS, images, and text, facilitating CLIP-GS in learning unified multimodal representations. Leveraging the well-aligned multimodal representations, CLIP-GS demonstrates versatility and outperforms point cloud-based models on various 3D tasks, including multimodal retrieval, zero-shot, and few-shot classification.


翻译:近年来,三维多模态学习领域取得了显著进展。然而,现有的三维多模态模型通常仅能处理点云数据。与新兴的三维表征技术——三维高斯泼溅(3DGS)相比,空间稀疏的点云无法刻画三维物体的纹理信息,导致其重建能力较弱。这一局限性制约了基于点云的三维多模态表征学习的潜力。本文提出CLIP-GS,一种基于3DGS的新型多模态表征学习框架。我们引入高斯分词器(GS Tokenizer)以生成序列化的高斯令牌,随后通过使用点云模型权重预初始化的Transformer层进行处理,最终得到3DGS嵌入。CLIP-GS利用3DGS嵌入与CLIP视觉-文本嵌入之间的对比损失进行学习,并引入图像投票损失以引导梯度优化的方向性与收敛性。此外,我们开发了一种高效生成3DGS、图像和文本三元组的方法,从而促进CLIP-GS学习统一的多模态表征。凭借良好对齐的多模态表征,CLIP-GS展现出卓越的通用性,在多模态检索、零样本及少样本分类等多种三维任务上均超越了基于点云的模型。

0
下载
关闭预览

相关内容

三维高斯泼溅应用综述:分割、编辑与生成
专知会员服务
17+阅读 · 2025年8月14日
【ICML2025】解决3D语言高斯溅射中的视角依赖语义
专知会员服务
8+阅读 · 2025年6月2日
【CVPR2025】DropGaussian: 稀视角高斯溅射的结构正则化
专知会员服务
9+阅读 · 2025年4月2日
【牛津大学博士论文】学习理解大规模3D点云,191页pdf
专知会员服务
38+阅读 · 2023年6月22日
专知会员服务
30+阅读 · 2020年9月21日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
PointNet系列论文解读
人工智能前沿讲习班
17+阅读 · 2019年5月3日
【泡泡点云时空】集成深度语义分割的3D点云配准
泡泡机器人SLAM
28+阅读 · 2018年11月24日
国家自然科学基金
5+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 从问答到任务完成:Agent系统与Harness设计
专知会员服务
1+阅读 · 今天16:54
Agentic RL:框架、实践与长程智能体训练
专知会员服务
1+阅读 · 今天16:52
重新思考无人机时代的生存能力
专知会员服务
5+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
4+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
6+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关基金
国家自然科学基金
5+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员