DecoVLN: Decoupling Observation, Reasoning, and Correction for Vision-and-Language Navigation - 专知论文

会员服务 ·

0

视觉语言导航 · 长时程 · 构建 · 相关性 · 解耦 ·

DecoVLN: Decoupling Observation, Reasoning, and Correction for Vision-and-Language Navigation

翻译：DecoVLN：解耦视觉语言导航中的观测、推理与校正

Zihao Xin,Wentong Li,Yixuan Jiang,Bin Wang,Runming Cong,Jie Qin,Shengjun Huang

from arxiv, 16 pages, 8 figures, CVPR2026

Vision-and-Language Navigation (VLN) requires agents to follow long-horizon instructions and navigate complex 3D environments. However, existing approaches face two major challenges: constructing an effective long-term memory bank and overcoming the compounding errors problem. To address these issues, we propose DecoVLN, an effective framework designed for robust streaming perception and closed-loop control in long-horizon navigation. First, we formulate long-term memory construction as an optimization problem and introduce adaptive refinement mechanism that selects frames from a historical candidate pool by iteratively optimizing a unified scoring function. This function jointly balances three key criteria: semantic relevance to the instruction, visual diversity from the selected memory, and temporal coverage of the historical trajectory. Second, to alleviate compounding errors, we introduce a state-action pair-level corrective finetuning strategy. By leveraging geodesic distance between states to precisely quantify deviation from the expert trajectory, the agent collects high-quality state-action pairs in the trusted region while filtering out the polluted data with low relevance. This improves both the efficiency and stability of error correction. Extensive experiments demonstrate the effectiveness of DecoVLN, and we have deployed it in real-world environments.

翻译：视觉语言导航要求智能体遵循长时程指令并在复杂三维环境中进行导航。然而，现有方法面临两大挑战：构建有效的长期记忆库以及克服误差累积问题。为解决这些问题，我们提出DecoVLN——一个专为长时程导航中鲁棒的流式感知与闭环控制而设计的有效框架。首先，我们将长期记忆构建形式化为一个优化问题，并引入自适应精炼机制，该机制通过迭代优化统一评分函数从历史候选池中选择关键帧。该函数联合平衡三个关键准则：与指令的语义相关性、已选记忆的视觉多样性以及历史轨迹的时间覆盖度。其次，为缓解误差累积，我们提出一种状态-动作对级别的校正微调策略。通过利用状态间的测地线距离精确量化与专家轨迹的偏差，智能体在可信区域内收集高质量的状态-动作对，同时过滤掉相关性低的污染数据。这提升了误差校正的效率和稳定性。大量实验验证了DecoVLN的有效性，我们已将其部署于真实世界环境中。

0

相关内容

视觉语言导航

视觉语言导航

无人机视觉语言导航：研究进展、挑战与技术路线图

无人机视觉语言导航：研究进展、挑战与技术路线图

专知会员服务

17+阅读 · 4月16日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

42+阅读 · 2025年3月9日

【ICLR2025】视觉与语言导航的通用场景适应

【ICLR2025】视觉与语言导航的通用场景适应

专知会员服务

9+阅读 · 2025年1月31日

【CVPR2024】用于视觉-语言导航的体积环境表示

【CVPR2024】用于视觉-语言导航的体积环境表示

专知会员服务

19+阅读 · 2024年3月24日

【AAAI2024】VLN-VIDEO: 利用驾驶视频进行户外视觉语言导航

【AAAI2024】VLN-VIDEO: 利用驾驶视频进行户外视觉语言导航

专知会员服务

10+阅读 · 2024年2月10日

【CVPR2023】KERM:面向视觉语言导航的知识增强推理

【CVPR2023】KERM:面向视觉语言导航的知识增强推理

专知会员服务

24+阅读 · 2023年3月30日

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

专知会员服务

38+阅读 · 2022年3月25日

【香港科技大学等】视觉-语言智能:任务、表示学习和大模型，Vision-Language Intelligence: Tasks, Representation Learning, and Large Models

【香港科技大学等】视觉-语言智能:任务、表示学习和大模型，Vision-Language Intelligence: Tasks, Representation Learning, and Large Models

专知会员服务

44+阅读 · 2022年3月8日

国防科大《视觉-语言导航》综述论文，24页pdf154篇文献

国防科大《视觉-语言导航》综述论文，24页pdf154篇文献

专知会员服务

64+阅读 · 2021年8月27日

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

专知会员服务

31+阅读 · 2020年3月11日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

计算机视觉方向简介 | 视觉惯性里程计(VIO)

计算机视觉方向简介 | 视觉惯性里程计(VIO)

计算机视觉life

64+阅读 · 2019年6月16日

NLP 与 NLU：从语言理解到语言处理

NLP 与 NLU：从语言理解到语言处理

AI研习社

15+阅读 · 2019年5月29日

一文带你读懂 DeconvNet 上采样层（语义分割）

一文带你读懂 DeconvNet 上采样层（语义分割）

AI研习社

26+阅读 · 2019年3月16日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

最全面的百度NLP自然语言处理技术解析

最全面的百度NLP自然语言处理技术解析

未来产业促进会

13+阅读 · 2017年11月12日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

视觉里程计：起源、优势、对比、应用

视觉里程计：起源、优势、对比、应用

计算机视觉life

18+阅读 · 2017年7月17日

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

面向计算机视觉问题的图匹配算法研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

顾及扫描上下文的预测与判决相结合的点云在线分类方法

国家自然科学基金

0+阅读 · 2015年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于视频图像处理的神经导航空间配准方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于视觉注意与眼动跟踪的地图认知计算模型与方法研究

国家自然科学基金

6+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

LookasideVLN: Direction-Aware Aerial Vision-and-Language Navigation

Arxiv

0+阅读 · 4月19日

Progress-Think: Semantic Progress Reasoning for Vision-Language Navigation

Arxiv

0+阅读 · 4月14日

Stop Wandering: Efficient Vision-Language Navigation via Metacognitive Reasoning

Arxiv

0+阅读 · 4月2日

DecoVLN: Decoupling Observation, Reasoning, and Correction for Vision-and-Language Navigation

Arxiv

0+阅读 · 3月26日

DecoVLN: Decoupling Observation, Reasoning, and Correction for Vision-and-Language Navigation

Arxiv

0+阅读 · 3月20日

P$^{3}$Nav: End-to-End Perception, Prediction and Planning for Vision-and-Language Navigation

Arxiv

0+阅读 · 3月18日

FloorPlan-VLN: A New Paradigm for Floor Plan Guided Vision-Language Navigation

Arxiv

0+阅读 · 3月18日

OmniVLN: Omnidirectional 3D Perception and Token-Efficient LLM Reasoning for Visual-Language Navigation across Air and Ground Platforms

OmniVLN: Omnidirectional 3D Perception and Token-Efficient LLM Reasoning for Visual-Language Navigation across Air and Ground Platforms

Arxiv

0+阅读 · 3月18日

\textsc{NaVIDA}: Vision-Language Navigation with Inverse Dynamics Augmentation

Arxiv

0+阅读 · 3月16日

OnFly: Onboard Zero-Shot Aerial Vision-Language Navigation toward Safety and Efficiency

Arxiv

0+阅读 · 3月11日

VIP会员

文章信息

相关主题

视觉语言导航

最新内容

无人机自主控制与人工智能：系统性综述

无人机自主控制与人工智能：系统性综述

专知会员服务

10+阅读 · 今天7:25

巡飞弹与反无人机系统——现代战场的两大支柱

巡飞弹与反无人机系统——现代战场的两大支柱

专知会员服务

3+阅读 · 今天6:54

《打造“黄金舰队”》57页报告

《打造“黄金舰队”》57页报告

专知会员服务

3+阅读 · 今天6:52

《北约数字教官网络发展路径》128页报告

《北约数字教官网络发展路径》128页报告

专知会员服务

2+阅读 · 今天6:33

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

7+阅读 · 6月25日

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

6+阅读 · 6月25日

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

9+阅读 · 6月25日

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

7+阅读 · 6月25日

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

8+阅读 · 6月25日

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

8+阅读 · 6月25日

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

10+阅读 · 6月25日

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

9+阅读 · 6月25日

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

9+阅读 · 6月25日

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

10+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

10+阅读 · 6月24日

相关VIP内容

无人机视觉语言导航：研究进展、挑战与技术路线图

无人机视觉语言导航：研究进展、挑战与技术路线图

专知会员服务

17+阅读 · 4月16日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

42+阅读 · 2025年3月9日

【ICLR2025】视觉与语言导航的通用场景适应

【ICLR2025】视觉与语言导航的通用场景适应

专知会员服务

9+阅读 · 2025年1月31日

【CVPR2024】用于视觉-语言导航的体积环境表示

【CVPR2024】用于视觉-语言导航的体积环境表示

专知会员服务

19+阅读 · 2024年3月24日

【AAAI2024】VLN-VIDEO: 利用驾驶视频进行户外视觉语言导航

【AAAI2024】VLN-VIDEO: 利用驾驶视频进行户外视觉语言导航

专知会员服务

10+阅读 · 2024年2月10日

【CVPR2023】KERM:面向视觉语言导航的知识增强推理

【CVPR2023】KERM:面向视觉语言导航的知识增强推理

专知会员服务

24+阅读 · 2023年3月30日

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

专知会员服务

38+阅读 · 2022年3月25日

【香港科技大学等】视觉-语言智能:任务、表示学习和大模型，Vision-Language Intelligence: Tasks, Representation Learning, and Large Models

【香港科技大学等】视觉-语言智能:任务、表示学习和大模型，Vision-Language Intelligence: Tasks, Representation Learning, and Large Models

专知会员服务

44+阅读 · 2022年3月8日

国防科大《视觉-语言导航》综述论文，24页pdf154篇文献

国防科大《视觉-语言导航》综述论文，24页pdf154篇文献

专知会员服务

64+阅读 · 2021年8月27日

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

专知会员服务

31+阅读 · 2020年3月11日

热门VIP内容

开通专知VIP会员享更多权益服务

巡飞弹与反无人机系统——现代战场的两大支柱

《北约数字教官网络发展路径》128页报告

无人机自主控制与人工智能：系统性综述

《打造“黄金舰队”》57页报告

相关资讯

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

计算机视觉方向简介 | 视觉惯性里程计(VIO)

计算机视觉方向简介 | 视觉惯性里程计(VIO)

计算机视觉life

64+阅读 · 2019年6月16日

NLP 与 NLU：从语言理解到语言处理

NLP 与 NLU：从语言理解到语言处理

AI研习社

15+阅读 · 2019年5月29日

一文带你读懂 DeconvNet 上采样层（语义分割）

一文带你读懂 DeconvNet 上采样层（语义分割）

AI研习社

26+阅读 · 2019年3月16日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

最全面的百度NLP自然语言处理技术解析

最全面的百度NLP自然语言处理技术解析

未来产业促进会

13+阅读 · 2017年11月12日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

视觉里程计：起源、优势、对比、应用

视觉里程计：起源、优势、对比、应用

计算机视觉life

18+阅读 · 2017年7月17日

相关论文

LookasideVLN: Direction-Aware Aerial Vision-and-Language Navigation

Arxiv

0+阅读 · 4月19日

Progress-Think: Semantic Progress Reasoning for Vision-Language Navigation

Arxiv

0+阅读 · 4月14日

Stop Wandering: Efficient Vision-Language Navigation via Metacognitive Reasoning

Arxiv

0+阅读 · 4月2日

DecoVLN: Decoupling Observation, Reasoning, and Correction for Vision-and-Language Navigation

Arxiv

0+阅读 · 3月26日

DecoVLN: Decoupling Observation, Reasoning, and Correction for Vision-and-Language Navigation

Arxiv

0+阅读 · 3月20日

P$^{3}$Nav: End-to-End Perception, Prediction and Planning for Vision-and-Language Navigation

Arxiv

0+阅读 · 3月18日

FloorPlan-VLN: A New Paradigm for Floor Plan Guided Vision-Language Navigation

Arxiv

0+阅读 · 3月18日

OmniVLN: Omnidirectional 3D Perception and Token-Efficient LLM Reasoning for Visual-Language Navigation across Air and Ground Platforms

OmniVLN: Omnidirectional 3D Perception and Token-Efficient LLM Reasoning for Visual-Language Navigation across Air and Ground Platforms

Arxiv

0+阅读 · 3月18日

\textsc{NaVIDA}: Vision-Language Navigation with Inverse Dynamics Augmentation

Arxiv

0+阅读 · 3月16日

OnFly: Onboard Zero-Shot Aerial Vision-Language Navigation toward Safety and Efficiency

Arxiv

0+阅读 · 3月11日

相关基金

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

面向计算机视觉问题的图匹配算法研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

顾及扫描上下文的预测与判决相结合的点云在线分类方法

国家自然科学基金

0+阅读 · 2015年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于视频图像处理的神经导航空间配准方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于视觉注意与眼动跟踪的地图认知计算模型与方法研究

国家自然科学基金

6+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员