VISOR：面向语言驱动目标导航的视觉空间物体推理 (VISOR: VIsual Spatial Object Reasoning for Language-driven Object Navigation) - 专知论文

会员服务 ·

0

识别 · 嵌入 · 泛化 · 智能体 · 可解释性 ·

VISOR: VIsual Spatial Object Reasoning for Language-driven Object Navigation

翻译：VISOR：面向语言驱动目标导航的视觉空间物体推理

Francesco Taioli,Shiping Yang,Sonia Raychaudhuri,Marco Cristani,Unnat Jain,Angel X Chang

Language-driven object navigation requires agents to interpret natural language descriptions of target objects, which combine intrinsic and extrinsic attributes for instance recognition and commonsense navigation. Existing methods either (i) use end-to-end trained models with vision-language embeddings, which struggle to generalize beyond training data and lack action-level explainability, or (ii) rely on modular zero-shot pipelines with large language models (LLMs) and open-set object detectors, which suffer from error propagation, high computational cost, and difficulty integrating their reasoning back into the navigation policy. To this end, we propose a compact 3B-parameter Vision-Language-Action (VLA) agent that performs human-like embodied reasoning for both object recognition and action selection, removing the need for stitched multi-model pipelines. Instead of raw embedding matching, our agent employs explicit image-grounded reasoning to directly answer "Is this the target object?" and "Why should I take this action?" The reasoning process unfolds in three stages: "think", "think summary", and "action", yielding improved explainability, stronger generalization, and more efficient navigation. Code and dataset available upon acceptance.

翻译：语言驱动目标导航要求智能体能够解读目标物体的自然语言描述，这些描述结合了内在与外在属性以实现实例识别与常识性导航。现有方法存在两类局限：(i) 采用端到端训练的视觉-语言嵌入模型，此类方法难以泛化至训练数据之外，且缺乏动作层面的可解释性；(ii) 依赖基于大语言模型（LLMs）与开放集物体检测器的模块化零样本流水线，此类方法存在误差传播、计算成本高昂以及难以将推理结果整合回导航策略的问题。为此，我们提出一个紧凑的30亿参数视觉-语言-动作（VLA）智能体，其通过类人的具身推理同时完成物体识别与动作选择，从而无需构建多模型拼接流水线。相较于原始嵌入匹配，本智能体采用显式的图像锚定推理来直接回答“这是目标物体吗？”与“为何应执行此动作？”。推理过程包含“思考”“思考总结”与“动作”三个阶段，在可解释性、泛化能力与导航效率方面均获得显著提升。代码与数据集将在论文录用后公开。

0

相关内容

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

大语言模型视角下的智能规划方法综述

大语言模型视角下的智能规划方法综述

专知会员服务

136+阅读 · 2024年4月20日

【AAAI2024】VLN-VIDEO: 利用驾驶视频进行户外视觉语言导航

【AAAI2024】VLN-VIDEO: 利用驾驶视频进行户外视觉语言导航

专知会员服务

10+阅读 · 2024年2月10日

【CVPR2023】KERM:面向视觉语言导航的知识增强推理

【CVPR2023】KERM:面向视觉语言导航的知识增强推理

专知会员服务

24+阅读 · 2023年3月30日

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

专知会员服务

37+阅读 · 2022年3月25日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

【NeurIPS2021】视觉语言导航的课程学习

【NeurIPS2021】视觉语言导航的课程学习

专知会员服务

24+阅读 · 2021年11月26日

国防科大《视觉-语言导航》综述论文，24页pdf154篇文献

国防科大《视觉-语言导航》综述论文，24页pdf154篇文献

专知会员服务

63+阅读 · 2021年8月27日

【ICCV 2021】 REM: 用于视觉语义导航的随机环境混合

专知会员服务

11+阅读 · 2021年8月8日

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

专知会员服务

31+阅读 · 2020年3月11日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

清华大学刘知远《知识指导的自然语言处理》，附55页PPT下载

清华大学刘知远《知识指导的自然语言处理》，附55页PPT下载

专知

36+阅读 · 2019年7月7日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

泡泡机器人SLAM

10+阅读 · 2019年4月18日

一文读懂目标检测：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD

一文读懂目标检测：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD

七月在线实验室

11+阅读 · 2018年7月18日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

产业智能官

29+阅读 · 2018年2月3日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

最全面的百度NLP自然语言处理技术解析

最全面的百度NLP自然语言处理技术解析

未来产业促进会

13+阅读 · 2017年11月12日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于三维激光测距的移动机器人室外环境语义地图构建

国家自然科学基金

2+阅读 · 2015年12月31日

不确定环境下的自主移动机器人目标搜索问题研究

国家自然科学基金

50+阅读 · 2015年12月31日

基于语义模型的高分辨率卫星遥感图像人造目标检测方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向物联网搜索的群智感知关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

中文句子语义概念图自动构建方法及应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于视频图像处理的神经导航空间配准方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

Learning to Retrieve Navigable Candidates for Efficient Vision-and-Language Navigation

Arxiv

0+阅读 · 2月17日

3DGSNav: Enhancing Vision-Language Model Reasoning for Object Navigation via Active 3D Gaussian Splatting

Arxiv

0+阅读 · 2月12日

AutoFly: Vision-Language-Action Model for UAV Autonomous Navigation in the Wild

Arxiv

0+阅读 · 2月10日

Sparse Video Generation Propels Real-World Beyond-the-View Vision-Language Navigation

Arxiv

0+阅读 · 2月5日

SEMNAV: Enhancing Visual Semantic Navigation in Robotics through Semantic Segmentation

Arxiv

0+阅读 · 2月3日

MapDream: Task-Driven Map Learning for Vision-Language Navigation

Arxiv

0+阅读 · 2月3日

DV-VLN: Dual Verification for Reliable LLM-Based Vision-and-Language Navigation

Arxiv

0+阅读 · 1月26日

AION: Aerial Indoor Object-Goal Navigation Using Dual-Policy Reinforcement Learning

Arxiv

0+阅读 · 1月22日

FantasyVLN: Unified Multimodal Chain-of-Thought Reasoning for Vision-Language Navigation

Arxiv

0+阅读 · 1月20日

Floor Plan-Guided Visual Navigation Incorporating Depth and Directional Cues

Arxiv

0+阅读 · 1月18日

VIP会员

文章信息

相关主题

相关VIP内容

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

大语言模型视角下的智能规划方法综述

大语言模型视角下的智能规划方法综述

专知会员服务

136+阅读 · 2024年4月20日

【AAAI2024】VLN-VIDEO: 利用驾驶视频进行户外视觉语言导航

【AAAI2024】VLN-VIDEO: 利用驾驶视频进行户外视觉语言导航

专知会员服务

10+阅读 · 2024年2月10日

【CVPR2023】KERM:面向视觉语言导航的知识增强推理

【CVPR2023】KERM:面向视觉语言导航的知识增强推理

专知会员服务

24+阅读 · 2023年3月30日

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

专知会员服务

37+阅读 · 2022年3月25日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

【NeurIPS2021】视觉语言导航的课程学习

【NeurIPS2021】视觉语言导航的课程学习

专知会员服务

24+阅读 · 2021年11月26日

国防科大《视觉-语言导航》综述论文，24页pdf154篇文献

国防科大《视觉-语言导航》综述论文，24页pdf154篇文献

专知会员服务

63+阅读 · 2021年8月27日

【ICCV 2021】 REM: 用于视觉语义导航的随机环境混合

专知会员服务

11+阅读 · 2021年8月8日

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

专知会员服务

31+阅读 · 2020年3月11日

热门VIP内容

开通专知VIP会员享更多权益服务

《可信人工智能赋能系统的支柱》

《从经典神经网络到不确定性下的拓扑神经网络：军事应用》2026最新40页报告

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

《人工智能：对战略与力量的影响》slides

相关资讯

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

清华大学刘知远《知识指导的自然语言处理》，附55页PPT下载

清华大学刘知远《知识指导的自然语言处理》，附55页PPT下载

专知

36+阅读 · 2019年7月7日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

泡泡机器人SLAM

10+阅读 · 2019年4月18日

一文读懂目标检测：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD

一文读懂目标检测：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD

七月在线实验室

11+阅读 · 2018年7月18日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

产业智能官

29+阅读 · 2018年2月3日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

最全面的百度NLP自然语言处理技术解析

最全面的百度NLP自然语言处理技术解析

未来产业促进会

13+阅读 · 2017年11月12日

相关论文

Learning to Retrieve Navigable Candidates for Efficient Vision-and-Language Navigation

Arxiv

0+阅读 · 2月17日

3DGSNav: Enhancing Vision-Language Model Reasoning for Object Navigation via Active 3D Gaussian Splatting

Arxiv

0+阅读 · 2月12日

AutoFly: Vision-Language-Action Model for UAV Autonomous Navigation in the Wild

Arxiv

0+阅读 · 2月10日

Sparse Video Generation Propels Real-World Beyond-the-View Vision-Language Navigation

Arxiv

0+阅读 · 2月5日

SEMNAV: Enhancing Visual Semantic Navigation in Robotics through Semantic Segmentation

Arxiv

0+阅读 · 2月3日

MapDream: Task-Driven Map Learning for Vision-Language Navigation

Arxiv

0+阅读 · 2月3日

DV-VLN: Dual Verification for Reliable LLM-Based Vision-and-Language Navigation

Arxiv

0+阅读 · 1月26日

AION: Aerial Indoor Object-Goal Navigation Using Dual-Policy Reinforcement Learning

Arxiv

0+阅读 · 1月22日

FantasyVLN: Unified Multimodal Chain-of-Thought Reasoning for Vision-Language Navigation

Arxiv

0+阅读 · 1月20日

Floor Plan-Guided Visual Navigation Incorporating Depth and Directional Cues

Arxiv

0+阅读 · 1月18日

相关基金

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于三维激光测距的移动机器人室外环境语义地图构建

国家自然科学基金

2+阅读 · 2015年12月31日

不确定环境下的自主移动机器人目标搜索问题研究

国家自然科学基金

50+阅读 · 2015年12月31日

基于语义模型的高分辨率卫星遥感图像人造目标检测方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向物联网搜索的群智感知关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

中文句子语义概念图自动构建方法及应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于视频图像处理的神经导航空间配准方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员