3D visual grounding aims to locate objects based on natural language descriptions in 3D scenes. Existing methods rely on a pre-defined Object Lookup Table (OLT) to query Visual Language Models (VLMs) for reasoning about object locations, which limits the applications in scenarios with undefined or unforeseen targets. To address this problem, we present OpenGround, a novel zero-shot framework for open-world 3D visual grounding. Central to OpenGround is the Active Cognition-based Reasoning (ACR) module, which is designed to overcome the fundamental limitation of pre-defined OLTs by progressively augmenting the cognitive scope of VLMs. The ACR module performs human-like perception of the target via a cognitive task chain and actively reasons about contextually relevant objects, thereby extending VLM cognition through a dynamically updated OLT. This allows OpenGround to function with both pre-defined and open-world categories. We also propose a new dataset named OpenTarget, which contains over 7000 object-description pairs to evaluate our method in open-world scenarios. Extensive experiments demonstrate that OpenGround achieves competitive performance on Nr3D, state-of-the-art on ScanRefer, and delivers a substantial 17.6% improvement on OpenTarget. Project Page at https://why-102.github.io/openground.io/.


翻译:三维视觉定位旨在根据自然语言描述在三维场景中定位物体。现有方法依赖预定义的对象查找表查询视觉语言模型以推理物体位置,这限制了其在目标未定义或不可预见场景中的应用。为解决该问题,我们提出OpenGround——一种面向开放世界三维视觉定位的新型零样本框架。其核心是主动认知推理模块,该模块通过渐进式扩展视觉语言模型的认知范围,旨在克服预定义对象查找表的根本局限性。该模块通过认知任务链对目标进行类人感知,并主动推理上下文相关对象,从而通过动态更新的对象查找表扩展视觉语言模型的认知能力。这使得OpenGround能够同时适用于预定义类别与开放世界类别。我们还提出了名为OpenTarget的新数据集,包含超过7000个物体-描述对,用于在开放世界场景中评估本方法。大量实验表明,OpenGround在Nr3D数据集上取得竞争性性能,在ScanRefer数据集上达到最优水平,并在OpenTarget数据集上实现17.6%的显著提升。项目页面详见https://why-102.github.io/openground.io/。

0
下载
关闭预览

相关内容

27页综述,354篇参考文献!最详尽的视觉定位综述来了
专知会员服务
21+阅读 · 2025年2月20日
基于文本的3D视觉定位综述:要素、最新进展与未来方向
三维视觉-语言推理技术的前沿研究与最新趋势
专知会员服务
24+阅读 · 2024年5月6日
专知会员服务
67+阅读 · 2021年5月21日
【经典书】《学习OpenCV 3》,1018页pdf
专知会员服务
133+阅读 · 2021年2月28日
计算机视觉方向简介 | 三维重建技术概述
计算机视觉life
26+阅读 · 2019年6月13日
计算机视觉方向简介 | 基于单目视觉的三维重建算法
计算机视觉life
32+阅读 · 2019年4月9日
ECCV发布:228页教程全面理解视觉定位技术
专知
17+阅读 · 2018年9月12日
交互设计理论:视觉感知、认知摩擦、认知负荷和情境认知
人人都是产品经理
20+阅读 · 2018年5月10日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月13日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员