Real-world deployment of Vision-and-Language Navigation (VLN) agents is constrained by the scarcity of reliable supervision after offline training. While recent adaptation methods attempt to mitigate distribution shifts via environment-driven self-supervision (e.g., entropy minimization), these signals are often noisy and can cause the agent to amplify its own mistakes during long-horizon sequential decision-making. In this paper, we propose a paradigm shift that positions user feedback, specifically episode-level success confirmations and goal-level corrections, as a primary and general-purpose supervision signal for VLN. Unlike internal confidence scores, user feedback is intent-aligned and in-situ consistent, directly correcting the agent's decoupling from user instructions. To effectively leverage this supervision, we introduce a user-feedback-driven learning framework featuring a topology-aware trajectory construction pipeline. This mechanism lifts sparse, goal-level corrections into dense path-level supervision by generating feasible paths on the agent's incrementally built topological graph, enabling sample-efficient imitation learning without requiring step-by-step human demonstrations. Furthermore, we develop a persistent memory bank mechanism for warm-start initialization, supporting the reuse of previously acquired topology and cached representations across navigation sessions. Extensive experiments on the GSA-R2R benchmark demonstrate that our approach transforms sparse interaction into robust supervision, consistently outperforming environment-driven baselines while exhibiting strong adaptability across diverse instruction styles.


翻译:视觉语言导航(VLN)智能体在现实世界中的部署受到离线训练后可靠监督稀缺的限制。尽管近期的适应方法尝试通过环境驱动的自监督(例如熵最小化)来缓解分布偏移,但这些信号通常存在噪声,并可能导致智能体在长时程序贯决策过程中放大自身错误。本文提出一种范式转变,将用户反馈——特别是任务级成功确认与目标级修正——定位为VLN主要且通用的监督信号。与内部置信度分数不同,用户反馈具有意图对齐与现场一致性,可直接纠正智能体与用户指令的解耦问题。为有效利用该监督机制,我们提出一种用户反馈驱动的学习框架,其核心为拓扑感知轨迹构建流程。该机制通过在智能体增量构建的拓扑图上生成可行路径,将稀疏的目标级修正提升为稠密的路径级监督,从而在无需逐步人工演示的情况下实现样本高效的模仿学习。此外,我们开发了持久记忆库机制用于热启动初始化,支持跨导航会话复用先前获取的拓扑结构与缓存表征。在GSA-R2R基准上的大量实验表明,我们的方法能将稀疏交互转化为鲁棒的监督信号,在持续超越环境驱动基线的同时,展现出对不同指令风格的强大适应能力。

0
下载
关闭预览

相关内容

在无标注条件下适配视觉—语言模型:全面综述
专知会员服务
13+阅读 · 2025年8月9日
【ICLR2025】视觉与语言导航的通用场景适应
专知会员服务
9+阅读 · 2025年1月31日
【CVPR2024】用于视觉-语言导航的体积环境表示
专知会员服务
19+阅读 · 2024年3月24日
【AAAI2024】VLN-VIDEO: 利用驾驶视频进行户外视觉语言导航
专知会员服务
10+阅读 · 2024年2月10日
【CVPR2023】KERM:面向视觉语言导航的知识增强推理
专知会员服务
24+阅读 · 2023年3月30日
【资源】领域自适应相关论文、代码分享
专知
32+阅读 · 2019年10月12日
计算机视觉方向简介 | 视觉惯性里程计(VIO)
计算机视觉life
64+阅读 · 2019年6月16日
领域自适应学习论文大列表
专知
71+阅读 · 2019年3月2日
极市分享|王晋东 迁移学习中的领域自适应方法
极市平台
10+阅读 · 2017年12月11日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员