Spatial intelligence refers to the ability to perceive, reason about, and describe objects and their relationships within three-dimensional environments, forming a foundation for embodied perception and scene understanding. 3D captioning aims to describe 3D scenes in natural language; however, it remains challenging due to the sparsity and irregularity of point clouds and, more critically, the weak grounding and limited out-of-distribution (OOD) generalization of existing captioners across drastically different environments, including indoor and outdoor 3D scenes. To address this challenge, we propose 3D CoCa v2, a generalizable 3D captioning framework that unifies contrastive vision-language learning with 3D caption generation and further improves robustness via test-time search (TTS) without updating the captioner parameters. 3D CoCa v2 builds on a frozen CLIP-based semantic prior, a spatially-aware 3D scene encoder for geometry, and a multimodal decoder jointly optimized with contrastive and captioning objectives, avoiding external detectors or handcrafted proposals. At inference, TTS produces diverse caption candidates and performs reward-guided selection using a compact scene summary. Experiments show improvements over 3D CoCa of +1.50 CIDEr@0.5IoU on ScanRefer and +1.61 CIDEr@0.5IoU on Nr3D, and +3.8 CIDEr@0.25 in zero-shot OOD evaluation on TOD3Cap. Code will be released at https://github.com/AIGeeksGroup/3DCoCav2.


翻译:空间智能指在三维环境中感知、推理并描述物体及其相互关系的能力,是具身感知与场景理解的基础。三维场景描述旨在用自然语言描述三维场景,但由于点云的稀疏性与不规则性,以及现有描述模型在室内外等截然不同环境中存在的弱 grounding 特性和有限分布外泛化能力,该任务仍面临挑战。为解决这一问题,我们提出 3D CoCa v2——一种可泛化的三维场景描述框架,该框架将对比式视觉-语言学习与三维描述生成相统一,并通过测试时搜索在不更新描述器参数的情况下进一步提升鲁棒性。3D CoCa v2 基于冻结的 CLIP 语义先验、感知几何的空间感知三维场景编码器,以及通过对比与描述目标联合优化的多模态解码器构建,无需外部检测器或人工提案。在推理阶段,测试时搜索生成多样化的描述候选,并利用紧凑场景摘要进行奖励引导的选择。实验表明,本模型在 ScanRefer 上较 3D CoCa 提升 +1.50 CIDEr@0.5IoU,在 Nr3D 上提升 +1.61 CIDEr@0.5IoU,在 TOD3Cap 的零样本分布外评估中提升 +3.8 CIDEr@0.25。代码将发布于 https://github.com/AIGeeksGroup/3DCoCav2。

0
下载
关闭预览

相关内容

3D是英文“Three Dimensions”的简称,中文是指三维、三个维度、三个坐标,即有长、有宽、有高,换句话说,就是立体的,是相对于只有长和宽的平面(2D)而言。
AI 智能体系统:体系架构、应用场景及评估范式
空间智能研究报告
专知会员服务
30+阅读 · 2025年5月16日
【清华五道口】2024空间计算行业图谱报告
专知会员服务
38+阅读 · 2024年6月16日
无人机地理空间情报在智能化海战中的应用
专知会员服务
133+阅读 · 2022年4月14日
空间数据智能:概念、技术与挑战
专知会员服务
93+阅读 · 2022年2月3日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员