Recent Vision-Language Models (VLMs) have demonstrated significant potential in robotic planning. However, they typically function as semantic reasoners, lacking an intrinsic understanding of the specific robot's physical capabilities. This limitation is particularly critical in interactive navigation, where robots must actively modify cluttered environments to create traversable paths. Existing VLM-based navigators are predominantly confined to passive obstacle avoidance, failing to reason about when and how to interact with objects to clear blocked paths. To bridge this gap, we propose Counterfactual Interactive Navigation via Skill-aware VLM (CoINS), a hierarchical framework that integrates skill-aware reasoning and robust low-level execution. Specifically, we fine-tune a VLM, named InterNav-VLM, which incorporates skill affordance and concrete constraint parameters into the input context and grounds them into a metric-scale environmental representation. By internalizing the logic of counterfactual reasoning through fine-tuning on the proposed InterNav dataset, the model learns to implicitly evaluate the causal effects of object removal on navigation connectivity, thereby determining interaction necessity and target selection. To execute the generated high-level plans, we develop a comprehensive skill library through reinforcement learning, specifically introducing traversability-oriented strategies to manipulate diverse objects for path clearance. A systematic benchmark in Isaac Sim is proposed to evaluate both the reasoning and execution aspects of interactive navigation. Extensive simulations and real-world experiments demonstrate that CoINS significantly outperforms representative baselines, achieving a 17\% higher overall success rate and over 80\% improvement in complex long-horizon scenarios compared to the best-performing baseline


翻译:近年来,视觉语言模型在机器人规划领域展现出巨大潜力。然而,这类模型通常仅作为语义推理器使用,缺乏对特定机器人物理能力的本质理解。这一局限在交互式导航任务中尤为关键,因为机器人需要主动修改杂乱的环境以开辟可行路径。现有的基于视觉语言模型的导航系统大多局限于被动避障,无法推理何时以及如何与物体交互以清理阻塞路径。为弥补这一差距,我们提出了基于技能感知视觉语言模型的反事实交互式导航框架,这是一个融合了技能感知推理与鲁棒底层执行的分层架构。具体而言,我们微调了一个名为InterNav-VLM的视觉语言模型,该模型将技能可供性与具体约束参数整合至输入语境中,并将其映射到度量尺度的环境表征中。通过在提出的InterNav数据集上进行微调以内化反事实推理逻辑,该模型能够隐式评估物体移除对导航连通性的因果效应,从而确定交互的必要性与目标选择。为执行生成的高层规划,我们通过强化学习构建了一个综合技能库,特别引入了面向可通行性的策略以操纵多样化物体实现路径清理。我们在Isaac Sim仿真环境中建立了系统性基准测试,以评估交互式导航的推理与执行能力。大量仿真与真实世界实验表明,CoINS显著优于代表性基线方法,整体成功率提升17%,在复杂长视野场景中较最佳基线性能提升超过80%。

0
下载
关闭预览

相关内容

【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应
专知会员服务
15+阅读 · 2025年8月5日
Python图像处理,366页pdf,Image Operators Image Processing in Python
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员