弥合室内外鸿沟：面向最后数米的视觉中心指令引导具身导航 (Bridging the Indoor-Outdoor Gap: Vision-Centric Instruction-Guided Embodied Navigation for the Last Meters) - 专知论文

会员服务 ·

0

粒度 · 粗粒度 · 细粒度 · 先验知识 · 知识 ·

Bridging the Indoor-Outdoor Gap: Vision-Centric Instruction-Guided Embodied Navigation for the Last Meters

翻译：弥合室内外鸿沟：面向最后数米的视觉中心指令引导具身导航

Yuxiang Zhao,Yirong Yang,Yanqing Zhu,Yanfen Shen,Chiyu Wang,Zhining Gu,Pei Shi,Wei Guo,Mu Xu

Embodied navigation holds significant promise for real-world applications such as last-mile delivery. However, most existing approaches are confined to either indoor or outdoor environments and rely heavily on strong assumptions, such as access to precise coordinate systems. While current outdoor methods can guide agents to the vicinity of a target using coarse-grained localization, they fail to enable fine-grained entry through specific building entrances, critically limiting their utility in practical deployment scenarios that require seamless outdoor-to-indoor transitions. To bridge this gap, we introduce a novel task: out-to-in prior-free instruction-driven embodied navigation. This formulation explicitly eliminates reliance on accurate external priors, requiring agents to navigate solely based on egocentric visual observations guided by instructions. To tackle this task, we propose a vision-centric embodied navigation framework that leverages image-based prompts to drive decision-making. Additionally, we present the first open-source dataset for this task, featuring a pipeline that integrates trajectory-conditioned video synthesis into the data generation process. Through extensive experiments, we demonstrate that our proposed method consistently outperforms state-of-the-art baselines across key metrics including success rate and path efficiency.

翻译：具身导航在最后一公里配送等现实应用中具有重要前景。然而，现有方法大多局限于室内或室外单一环境，且严重依赖精确坐标系等强假设。当前室外方法虽能通过粗粒度定位引导智能体抵达目标大致区域，却无法实现通过特定建筑入口的细粒度进入，这在需要无缝室外-室内转换的实际部署场景中严重限制了其实用性。为弥合这一鸿沟，我们提出一项新颖任务：无先验知识的外到内指令驱动具身导航。该形式化方法明确摒弃了对精确外部先验信息的依赖，要求智能体仅基于以指令引导的自我中心视觉观测进行导航。针对此任务，我们提出一种视觉中心的具身导航框架，利用基于图像的提示驱动决策。此外，我们发布了该任务的首个开源数据集，其特色在于将轨迹条件视频合成技术融入数据生成流程的构建管道。通过大量实验，我们证明所提方法在成功率与路径效率等关键指标上均持续优于现有先进基线模型。

0

相关内容

具身智能中的心理世界建模：深度综述

具身智能中的心理世界建模：深度综述

专知会员服务

28+阅读 · 1月10日

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

专知会员服务

22+阅读 · 2025年11月17日

飞越鸿沟：从视角到全景视觉的综述

飞越鸿沟：从视角到全景视觉的综述

专知会员服务

24+阅读 · 2025年9月5日

《战场GPS拒止环境下基于地标定位的安全路径导航》

《战场GPS拒止环境下基于地标定位的安全路径导航》

专知会员服务

18+阅读 · 2025年5月22日

《拒止GNSS的环境中进行替代导航的信念空间规划》145页

《拒止GNSS的环境中进行替代导航的信念空间规划》145页

专知会员服务

35+阅读 · 2024年8月5日

具身智能中模型如何自适应更新？中科院ICML2024 | 基于快-慢测试时自适应的在线视觉-语言导航方法

具身智能中模型如何自适应更新？中科院ICML2024 | 基于快-慢测试时自适应的在线视觉-语言导航方法

专知会员服务

20+阅读 · 2024年5月29日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

专知会员服务

37+阅读 · 2022年3月25日

自动驾驶渐行渐近，卫惯导航大有可为

专知会员服务

39+阅读 · 2021年9月7日

高精度室内定位研究评述及未来演进展望

专知会员服务

27+阅读 · 2021年9月1日

LinkTrack UWB高精度定位系统首发，一套可以随时搭建的"小卫星"定位系统，集定位|导航|授时|通信于一体

LinkTrack UWB高精度定位系统首发，一套可以随时搭建的"小卫星"定位系统，集定位|导航|授时|通信于一体

无人机

10+阅读 · 2019年7月18日

国外有人/无人平台协同作战概述

国外有人/无人平台协同作战概述

无人机

122+阅读 · 2019年5月28日

《视觉跟踪最新方法与趋势》，44页最新综述带你全面了解视觉跟踪领域发展方向

《视觉跟踪最新方法与趋势》，44页最新综述带你全面了解视觉跟踪领域发展方向

专知

32+阅读 · 2019年5月22日

自动驾驶车辆定位技术概述｜厚势汽车

自动驾驶车辆定位技术概述｜厚势汽车

厚势

10+阅读 · 2019年5月16日

【未来黑科技】深度玩转行人重识别与跨境追踪

【未来黑科技】深度玩转行人重识别与跨境追踪

炼数成金订阅号

11+阅读 · 2019年4月18日

车路协同构建“通信+计算”新体系

车路协同构建“通信+计算”新体系

智能交通技术

11+阅读 · 2019年3月26日

全景分割任务介绍及其最新进展【附PPT与视频资料】

全景分割任务介绍及其最新进展【附PPT与视频资料】

人工智能前沿讲习班

11+阅读 · 2018年12月5日

【紫冬分享】移动机器人视觉里程计综述

【紫冬分享】移动机器人视觉里程计综述

中国科学院自动化研究所

12+阅读 · 2018年10月31日

海洋技术丨超短基线定位技术及在海洋工程中的应用

海洋技术丨超短基线定位技术及在海洋工程中的应用

无人机

28+阅读 · 2018年9月14日

ECCV发布：228页教程全面理解视觉定位技术

ECCV发布：228页教程全面理解视觉定位技术

专知

17+阅读 · 2018年9月12日

多源信息融合的地外天体表面巡视定位方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

矢栅混合的室内三维导航网络模型

国家自然科学基金

0+阅读 · 2015年12月31日

基于三维激光测距的移动机器人室外环境语义地图构建

国家自然科学基金

2+阅读 · 2015年12月31日

高超声速飞行器超紧耦合自主可靠导航方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向多用户行为的无线识别关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

MRF模型的车载全景视觉位姿估计最优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

行人重识别目标中心编码外观模型的研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂低空飞行中机会信号导航的信号优选及融合定位方法研究

国家自然科学基金

8+阅读 · 2015年12月31日

室内多目标的被动定位方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视频图像处理的神经导航空间配准方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

City Navigation in the Wild: Exploring Emergent Navigation from Web-Scale Knowledge in MLLMs

Arxiv

0+阅读 · 2月11日

VISOR: VIsual Spatial Object Reasoning for Language-driven Object Navigation

Arxiv

0+阅读 · 2月7日

Sparse Video Generation Propels Real-World Beyond-the-View Vision-Language Navigation

Arxiv

0+阅读 · 2月5日

Sem-NaVAE: Semantically-Guided Outdoor Mapless Navigation via Generative Trajectory Priors

Arxiv

0+阅读 · 2月1日

ORION: Option-Regularized Deep Reinforcement Learning for Cooperative Multi-Agent Online Navigation

Arxiv

0+阅读 · 1月26日

AION: Aerial Indoor Object-Goal Navigation Using Dual-Policy Reinforcement Learning

Arxiv

0+阅读 · 1月22日

Floor Plan-Guided Visual Navigation Incorporating Depth and Directional Cues

Arxiv

0+阅读 · 1月18日

An Efficient and Multi-Modal Navigation System with One-Step World Model

Arxiv

0+阅读 · 1月18日

UrbanNav: Learning Language-Guided Urban Navigation from Web-Scale Human Trajectories

Arxiv

0+阅读 · 1月15日

Hybrid guided variational autoencoder for visual place recognition

Arxiv

0+阅读 · 1月14日

VIP会员

文章信息

相关主题

相关VIP内容

具身智能中的心理世界建模：深度综述

具身智能中的心理世界建模：深度综述

专知会员服务

28+阅读 · 1月10日

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

专知会员服务

22+阅读 · 2025年11月17日

飞越鸿沟：从视角到全景视觉的综述

飞越鸿沟：从视角到全景视觉的综述

专知会员服务

24+阅读 · 2025年9月5日

《战场GPS拒止环境下基于地标定位的安全路径导航》

《战场GPS拒止环境下基于地标定位的安全路径导航》

专知会员服务

18+阅读 · 2025年5月22日

《拒止GNSS的环境中进行替代导航的信念空间规划》145页

《拒止GNSS的环境中进行替代导航的信念空间规划》145页

专知会员服务

35+阅读 · 2024年8月5日

具身智能中模型如何自适应更新？中科院ICML2024 | 基于快-慢测试时自适应的在线视觉-语言导航方法

具身智能中模型如何自适应更新？中科院ICML2024 | 基于快-慢测试时自适应的在线视觉-语言导航方法

专知会员服务

20+阅读 · 2024年5月29日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

专知会员服务

37+阅读 · 2022年3月25日

自动驾驶渐行渐近，卫惯导航大有可为

专知会员服务

39+阅读 · 2021年9月7日

高精度室内定位研究评述及未来演进展望

专知会员服务

27+阅读 · 2021年9月1日

热门VIP内容

开通专知VIP会员享更多权益服务

《可信人工智能赋能系统的支柱》

《从经典神经网络到不确定性下的拓扑神经网络：军事应用》2026最新40页报告

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

《人工智能：对战略与力量的影响》slides

相关资讯

LinkTrack UWB高精度定位系统首发，一套可以随时搭建的"小卫星"定位系统，集定位|导航|授时|通信于一体

LinkTrack UWB高精度定位系统首发，一套可以随时搭建的"小卫星"定位系统，集定位|导航|授时|通信于一体

无人机

10+阅读 · 2019年7月18日

国外有人/无人平台协同作战概述

国外有人/无人平台协同作战概述

无人机

122+阅读 · 2019年5月28日

《视觉跟踪最新方法与趋势》，44页最新综述带你全面了解视觉跟踪领域发展方向

《视觉跟踪最新方法与趋势》，44页最新综述带你全面了解视觉跟踪领域发展方向

专知

32+阅读 · 2019年5月22日

自动驾驶车辆定位技术概述｜厚势汽车

自动驾驶车辆定位技术概述｜厚势汽车

厚势

10+阅读 · 2019年5月16日

【未来黑科技】深度玩转行人重识别与跨境追踪

【未来黑科技】深度玩转行人重识别与跨境追踪

炼数成金订阅号

11+阅读 · 2019年4月18日

车路协同构建“通信+计算”新体系

车路协同构建“通信+计算”新体系

智能交通技术

11+阅读 · 2019年3月26日

全景分割任务介绍及其最新进展【附PPT与视频资料】

全景分割任务介绍及其最新进展【附PPT与视频资料】

人工智能前沿讲习班

11+阅读 · 2018年12月5日

【紫冬分享】移动机器人视觉里程计综述

【紫冬分享】移动机器人视觉里程计综述

中国科学院自动化研究所

12+阅读 · 2018年10月31日

海洋技术丨超短基线定位技术及在海洋工程中的应用

海洋技术丨超短基线定位技术及在海洋工程中的应用

无人机

28+阅读 · 2018年9月14日

ECCV发布：228页教程全面理解视觉定位技术

ECCV发布：228页教程全面理解视觉定位技术

专知

17+阅读 · 2018年9月12日

相关论文

City Navigation in the Wild: Exploring Emergent Navigation from Web-Scale Knowledge in MLLMs

Arxiv

0+阅读 · 2月11日

VISOR: VIsual Spatial Object Reasoning for Language-driven Object Navigation

Arxiv

0+阅读 · 2月7日

Sparse Video Generation Propels Real-World Beyond-the-View Vision-Language Navigation

Arxiv

0+阅读 · 2月5日

Sem-NaVAE: Semantically-Guided Outdoor Mapless Navigation via Generative Trajectory Priors

Arxiv

0+阅读 · 2月1日

ORION: Option-Regularized Deep Reinforcement Learning for Cooperative Multi-Agent Online Navigation

Arxiv

0+阅读 · 1月26日

AION: Aerial Indoor Object-Goal Navigation Using Dual-Policy Reinforcement Learning

Arxiv

0+阅读 · 1月22日

Floor Plan-Guided Visual Navigation Incorporating Depth and Directional Cues

Arxiv

0+阅读 · 1月18日

An Efficient and Multi-Modal Navigation System with One-Step World Model

Arxiv

0+阅读 · 1月18日

UrbanNav: Learning Language-Guided Urban Navigation from Web-Scale Human Trajectories

Arxiv

0+阅读 · 1月15日

Hybrid guided variational autoencoder for visual place recognition

Arxiv

0+阅读 · 1月14日

相关基金

多源信息融合的地外天体表面巡视定位方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

矢栅混合的室内三维导航网络模型

国家自然科学基金

0+阅读 · 2015年12月31日

基于三维激光测距的移动机器人室外环境语义地图构建

国家自然科学基金

2+阅读 · 2015年12月31日

高超声速飞行器超紧耦合自主可靠导航方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向多用户行为的无线识别关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

MRF模型的车载全景视觉位姿估计最优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

行人重识别目标中心编码外观模型的研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂低空飞行中机会信号导航的信号优选及融合定位方法研究

国家自然科学基金

8+阅读 · 2015年12月31日

室内多目标的被动定位方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视频图像处理的神经导航空间配准方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员