Object navigation is a core capability of embodied intelligence, enabling an agent to locate target objects in unknown environments. Recent advances in vision-language models (VLMs) have facilitated zero-shot object navigation (ZSON). However, existing methods often rely on scene abstractions that convert environments into semantic maps or textual representations, causing high-level decision making to be constrained by the accuracy of low-level perception. In this work, we present 3DGSNav, a novel ZSON framework that embeds 3D Gaussian Splatting (3DGS) as persistent memory for VLMs to enhance spatial reasoning. Through active perception, 3DGSNav incrementally constructs a 3DGS representation of the environment, enabling trajectory-guided free-viewpoint rendering of frontier-aware first-person views. Moreover, we design structured visual prompts and integrate them with Chain-of-Thought (CoT) prompting to further improve VLM reasoning. During navigation, a real-time object detector filters potential targets, while VLM-driven active viewpoint switching performs target re-verification, ensuring efficient and reliable recognition. Extensive evaluations across multiple benchmarks and real-world experiments on a quadruped robot demonstrate that our method achieves robust and competitive performance against state-of-the-art approaches.The Project Page:https://aczheng-cai.github.io/3dgsnav.github.io/


翻译:物体导航是具身智能的核心能力,旨在使智能体能够在未知环境中定位目标物体。视觉语言模型(VLMs)的最新进展推动了零样本物体导航(ZSON)的发展。然而,现有方法通常依赖于将环境转换为语义地图或文本表示的场景抽象,导致高层决策受限于低层感知的准确性。本文提出3DGSNav,一种新颖的ZSON框架,它将3D高斯溅射(3DGS)作为持久性记忆嵌入VLMs,以增强空间推理能力。通过主动感知,3DGSNav逐步构建环境的3DGS表示,实现基于轨迹引导的、具有前沿感知的第一人称视角的自由视点渲染。此外,我们设计了结构化视觉提示,并将其与思维链(CoT)提示相结合,以进一步提升VLM的推理能力。在导航过程中,实时物体检测器过滤潜在目标,而VLM驱动的主动视点切换执行目标再验证,确保高效可靠的识别。在多个基准测试中的广泛评估以及在四足机器人上的真实世界实验表明,我们的方法相较于最先进方法实现了稳健且具有竞争力的性能。项目页面:https://aczheng-cai.github.io/3dgsnav.github.io/

0
下载
关闭预览

相关内容

3D是英文“Three Dimensions”的简称,中文是指三维、三个维度、三个坐标,即有长、有宽、有高,换句话说,就是立体的,是相对于只有长和宽的平面(2D)而言。
自动驾驶中的3D目标检测研究进展
专知会员服务
11+阅读 · 2025年7月20日
基于视觉-语言模型的3D物体检测综述
专知会员服务
15+阅读 · 2025年4月29日
高效视觉语言模型研究综述
专知会员服务
14+阅读 · 2025年4月18日
【CVPR2023】KERM:面向视觉语言导航的知识增强推理
专知会员服务
24+阅读 · 2023年3月30日
自动驾驶高精度定位如何在复杂环境进行
智能交通技术
18+阅读 · 2019年9月27日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
深度学习的目标检测技术演进:R-CNN、Fast R-CNN、Faster R-CNN
数据挖掘入门与实战
13+阅读 · 2018年4月6日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员