3D CoCa v2: Contrastive Learners with Test-Time Search for Generalizable Spatial Intelligence - 专知论文

会员服务 ·

0

3D · 泛化 · 三维场景 · 搜索 · 空间智能 ·

3D CoCa v2: Contrastive Learners with Test-Time Search for Generalizable Spatial Intelligence

翻译：3D CoCa v2：基于对比学习与测试时搜索的可泛化空间智能模型

Hao Tang,Ting Huang,Zeyu Zhang

Spatial intelligence refers to the ability to perceive, reason about, and describe objects and their relationships within three-dimensional environments, forming a foundation for embodied perception and scene understanding. 3D captioning aims to describe 3D scenes in natural language; however, it remains challenging due to the sparsity and irregularity of point clouds and, more critically, the weak grounding and limited out-of-distribution (OOD) generalization of existing captioners across drastically different environments, including indoor and outdoor 3D scenes. To address this challenge, we propose 3D CoCa v2, a generalizable 3D captioning framework that unifies contrastive vision-language learning with 3D caption generation and further improves robustness via test-time search (TTS) without updating the captioner parameters. 3D CoCa v2 builds on a frozen CLIP-based semantic prior, a spatially-aware 3D scene encoder for geometry, and a multimodal decoder jointly optimized with contrastive and captioning objectives, avoiding external detectors or handcrafted proposals. At inference, TTS produces diverse caption candidates and performs reward-guided selection using a compact scene summary. Experiments show improvements over 3D CoCa of +1.50 [email protected] on ScanRefer and +1.61 [email protected] on Nr3D, and +3.8 [email protected] in zero-shot OOD evaluation on TOD3Cap. Code will be released at https://github.com/AIGeeksGroup/3DCoCav2.

翻译：空间智能指在三维环境中感知、推理并描述物体及其相互关系的能力，是具身感知与场景理解的基础。三维场景描述旨在用自然语言描述三维场景，但由于点云的稀疏性与不规则性，以及现有描述模型在室内外等截然不同环境中存在的弱 grounding 特性和有限分布外泛化能力，该任务仍面临挑战。为解决这一问题，我们提出 3D CoCa v2——一种可泛化的三维场景描述框架，该框架将对比式视觉-语言学习与三维描述生成相统一，并通过测试时搜索在不更新描述器参数的情况下进一步提升鲁棒性。3D CoCa v2 基于冻结的 CLIP 语义先验、感知几何的空间感知三维场景编码器，以及通过对比与描述目标联合优化的多模态解码器构建，无需外部检测器或人工提案。在推理阶段，测试时搜索生成多样化的描述候选，并利用紧凑场景摘要进行奖励引导的选择。实验表明，本模型在 ScanRefer 上较 3D CoCa 提升 +1.50 [email protected]，在 Nr3D 上提升 +1.61 [email protected]，在 TOD3Cap 的零样本分布外评估中提升 +3.8 [email protected]。代码将发布于 https://github.com/AIGeeksGroup/3DCoCav2。

0

相关内容

3D是英文“Three Dimensions”的简称，中文是指三维、三个维度、三个坐标，即有长、有宽、有高，换句话说，就是立体的，是相对于只有长和宽的平面（2D）而言。

AI 智能体系统：体系架构、应用场景及评估范式

AI 智能体系统：体系架构、应用场景及评估范式

专知会员服务

70+阅读 · 1月6日

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

专知会员服务

28+阅读 · 2025年11月17日

空间智能研究报告

空间智能研究报告

专知会员服务

32+阅读 · 2025年5月16日

多智能体协同决策研究全景透视：应用场景、研究方法、挑战与未来展望

多智能体协同决策研究全景透视：应用场景、研究方法、挑战与未来展望

专知会员服务

47+阅读 · 2025年3月20日

【清华五道口】2024空间计算行业图谱报告

【清华五道口】2024空间计算行业图谱报告

专知会员服务

38+阅读 · 2024年6月16日

无人机地理空间情报在智能化海战中的应用

无人机地理空间情报在智能化海战中的应用

专知会员服务

134+阅读 · 2022年4月14日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

空间数据智能：概念、技术与挑战

空间数据智能：概念、技术与挑战

专知会员服务

93+阅读 · 2022年2月3日

《人工智能发展报告2020》,清华人工智能研究院等，235页pdf

专知会员服务

220+阅读 · 2021年1月21日

【华盛顿大学】知识建模+生成式推理，60页ppt，Cracking Commonsense Intelligence with Knowledge Modeling + Generative Reasoning

【华盛顿大学】知识建模+生成式推理，60页ppt，Cracking Commonsense Intelligence with Knowledge Modeling + Generative Reasoning

专知会员服务

54+阅读 · 2019年12月27日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

中国人工智能产业知识产权白皮书（2021）（附报告），519页pdf

中国人工智能产业知识产权白皮书（2021）（附报告），519页pdf

专知

11+阅读 · 2022年2月12日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

《人工智能之认知图谱》重磅发布（附报告全文下载）

《人工智能之认知图谱》重磅发布（附报告全文下载）

学术头条

42+阅读 · 2020年8月28日

居家学习！南京大学吴建鑫教授《模式识别》2020课程，附课件下载

居家学习！南京大学吴建鑫教授《模式识别》2020课程，附课件下载

专知

67+阅读 · 2020年2月24日

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

专知

21+阅读 · 2019年12月31日

清华大学、中国人工智能学会重磅发布《2019人工智能发展报告》！两大亮点抢先看（附下载）

清华大学、中国人工智能学会重磅发布《2019人工智能发展报告》！两大亮点抢先看（附下载）

新智元

16+阅读 · 2019年12月2日

纵览知识图谱在AI领域的有效应用，2019知识图谱前沿技术论坛即将开幕

纵览知识图谱在AI领域的有效应用，2019知识图谱前沿技术论坛即将开幕

机器之心

15+阅读 · 2019年10月11日

吊打YOLOv3！普林斯顿大学提出：CornerNet-Lite，基于关键点的实时且精度高的目标检测算法，已开源！

吊打YOLOv3！普林斯顿大学提出：CornerNet-Lite，基于关键点的实时且精度高的目标检测算法，已开源！

极市平台

30+阅读 · 2019年4月20日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

顾及扫描上下文的预测与判决相结合的点云在线分类方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向多用户行为的无线识别关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向物联网搜索的群智感知关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于智能空间的云机器人行为知识驱动服务机制研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于图像属性和深度学习的大规模物体检测研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

基于视频图像处理的神经导航空间配准方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

高维时空场数据的层次张量建模与分析方法

国家自然科学基金

2+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

Think3D: Thinking with Space for Spatial Reasoning

Arxiv

0+阅读 · 2月4日

SpatialViz-Bench: A Cognitively-Grounded Benchmark for Diagnosing Spatial Visualization in MLLMs

Arxiv

0+阅读 · 2月2日

From Perception to Action: Spatial AI Agents and World Models

Arxiv

1+阅读 · 2月2日

Open-Vocabulary Functional 3D Human-Scene Interaction Generation

Arxiv

0+阅读 · 1月30日

Virtual Reflections on a Dynamic 2D Eye Model Improve Spatial Reference Identification

Arxiv

0+阅读 · 1月29日

GeoDiff3D: Self-Supervised 3D Scene Generation with Geometry-Constrained 2D Diffusion Guidance

Arxiv

0+阅读 · 1月27日

Spatial-Agent: Agentic Geo-spatial Reasoning with Scientific Core Concepts

Arxiv

1+阅读 · 1月23日

Think3D: Thinking with Space for Spatial Reasoning

Arxiv

0+阅读 · 1月19日

Forging Spatial Intelligence: A Roadmap of Multi-Modal Data Pre-Training for Autonomous Systems

Arxiv

0+阅读 · 1月8日

Thinking on Maps: How Foundation Model Agents Explore, Remember, and Reason Map Environments

Arxiv

0+阅读 · 2025年12月30日

VIP会员

文章信息

相关主题

最新内容

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

1+阅读 · 9分钟前

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

1+阅读 · 12分钟前

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

0+阅读 · 39分钟前

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

0+阅读 · 44分钟前

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

1+阅读 · 今天8:28

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

4+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

6+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

6+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

4+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

7+阅读 · 7月20日

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

7+阅读 · 7月20日

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

14+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

7+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

10+阅读 · 7月19日

相关VIP内容

AI 智能体系统：体系架构、应用场景及评估范式

AI 智能体系统：体系架构、应用场景及评估范式

专知会员服务

70+阅读 · 1月6日

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

专知会员服务

28+阅读 · 2025年11月17日

空间智能研究报告

空间智能研究报告

专知会员服务

32+阅读 · 2025年5月16日

多智能体协同决策研究全景透视：应用场景、研究方法、挑战与未来展望

多智能体协同决策研究全景透视：应用场景、研究方法、挑战与未来展望

专知会员服务

47+阅读 · 2025年3月20日

【清华五道口】2024空间计算行业图谱报告

【清华五道口】2024空间计算行业图谱报告

专知会员服务

38+阅读 · 2024年6月16日

无人机地理空间情报在智能化海战中的应用

无人机地理空间情报在智能化海战中的应用

专知会员服务

134+阅读 · 2022年4月14日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

空间数据智能：概念、技术与挑战

空间数据智能：概念、技术与挑战

专知会员服务

93+阅读 · 2022年2月3日

《人工智能发展报告2020》,清华人工智能研究院等，235页pdf

专知会员服务

220+阅读 · 2021年1月21日

【华盛顿大学】知识建模+生成式推理，60页ppt，Cracking Commonsense Intelligence with Knowledge Modeling + Generative Reasoning

【华盛顿大学】知识建模+生成式推理，60页ppt，Cracking Commonsense Intelligence with Knowledge Modeling + Generative Reasoning

专知会员服务

54+阅读 · 2019年12月27日

热门VIP内容

开通专知VIP会员享更多权益服务

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

《无人机对海面作战影响评估》

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

相关资讯

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

中国人工智能产业知识产权白皮书（2021）（附报告），519页pdf

中国人工智能产业知识产权白皮书（2021）（附报告），519页pdf

专知

11+阅读 · 2022年2月12日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

《人工智能之认知图谱》重磅发布（附报告全文下载）

《人工智能之认知图谱》重磅发布（附报告全文下载）

学术头条

42+阅读 · 2020年8月28日

居家学习！南京大学吴建鑫教授《模式识别》2020课程，附课件下载

居家学习！南京大学吴建鑫教授《模式识别》2020课程，附课件下载

专知

67+阅读 · 2020年2月24日

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

专知

21+阅读 · 2019年12月31日

清华大学、中国人工智能学会重磅发布《2019人工智能发展报告》！两大亮点抢先看（附下载）

清华大学、中国人工智能学会重磅发布《2019人工智能发展报告》！两大亮点抢先看（附下载）

新智元

16+阅读 · 2019年12月2日

纵览知识图谱在AI领域的有效应用，2019知识图谱前沿技术论坛即将开幕

纵览知识图谱在AI领域的有效应用，2019知识图谱前沿技术论坛即将开幕

机器之心

15+阅读 · 2019年10月11日

吊打YOLOv3！普林斯顿大学提出：CornerNet-Lite，基于关键点的实时且精度高的目标检测算法，已开源！

吊打YOLOv3！普林斯顿大学提出：CornerNet-Lite，基于关键点的实时且精度高的目标检测算法，已开源！

极市平台

30+阅读 · 2019年4月20日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

相关论文

Think3D: Thinking with Space for Spatial Reasoning

Arxiv

0+阅读 · 2月4日

SpatialViz-Bench: A Cognitively-Grounded Benchmark for Diagnosing Spatial Visualization in MLLMs

Arxiv

0+阅读 · 2月2日

From Perception to Action: Spatial AI Agents and World Models

Arxiv

1+阅读 · 2月2日

Open-Vocabulary Functional 3D Human-Scene Interaction Generation

Arxiv

0+阅读 · 1月30日

Virtual Reflections on a Dynamic 2D Eye Model Improve Spatial Reference Identification

Arxiv

0+阅读 · 1月29日

GeoDiff3D: Self-Supervised 3D Scene Generation with Geometry-Constrained 2D Diffusion Guidance

Arxiv

0+阅读 · 1月27日

Spatial-Agent: Agentic Geo-spatial Reasoning with Scientific Core Concepts

Arxiv

1+阅读 · 1月23日

Think3D: Thinking with Space for Spatial Reasoning

Arxiv

0+阅读 · 1月19日

Forging Spatial Intelligence: A Roadmap of Multi-Modal Data Pre-Training for Autonomous Systems

Arxiv

0+阅读 · 1月8日

Thinking on Maps: How Foundation Model Agents Explore, Remember, and Reason Map Environments

Arxiv

0+阅读 · 2025年12月30日

相关基金

顾及扫描上下文的预测与判决相结合的点云在线分类方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向多用户行为的无线识别关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向物联网搜索的群智感知关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于智能空间的云机器人行为知识驱动服务机制研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于图像属性和深度学习的大规模物体检测研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

基于视频图像处理的神经导航空间配准方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

高维时空场数据的层次张量建模与分析方法

国家自然科学基金

2+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员