The evaluation of navigation instructions remains a persistent challenge in Vision-and-Language Navigation (VLN) research. Traditional reference-based metrics such as BLEU and ROUGE fail to capture the functional utility of spatial directives, specifically whether an instruction successfully guides a navigator to the intended destination. Although existing VLN agents could serve as evaluators, their reliance on high-fidelity visual simulators introduces licensing constraints and computational costs, and perception errors further confound linguistic quality assessment. This paper introduces GROKE(Graph-based Reasoning over OSM Knowledge for instruction Evaluation), a vision-free training-free hierarchical LLM-based framework for evaluating navigation instructions using OpenStreetMap data. Through systematic ablation studies, we demonstrate that structured JSON and textual formats for spatial information substantially outperform grid-based and visual graph representations. Our hierarchical architecture combines sub-instruction planning with topological graph navigation, reducing navigation error by 68.5% compared to heuristic and sampling baselines on the Map2Seq dataset. The agent's execution success, trajectory fidelity, and decision patterns serve as proxy metrics for functional navigability given OSM-visible landmarks and topology, establishing a scalable and interpretable evaluation paradigm without visual dependencies. Code and data are available at https://anonymous.4open.science/r/groke.


翻译:导航指令的评估始终是视觉与语言导航研究中的一个持续挑战。传统的基于参考的指标(如BLEU和ROUGE)无法捕捉空间指令的功能效用,特别是无法判断指令是否能成功引导导航者到达预期目的地。尽管现有的VLN智能体可作为评估器,但它们对高保真视觉模拟器的依赖引入了许可限制和计算成本,且感知误差进一步干扰了语言质量评估。本文提出GROKE(基于OSM知识的图推理指令评估框架),这是一个无需视觉输入、无需训练、基于分层大语言模型的框架,利用OpenStreetMap数据评估导航指令。通过系统化的消融研究,我们证明空间信息的结构化JSON和文本格式显著优于基于网格和视觉图的表示方法。我们的分层架构将子指令规划与拓扑图导航相结合,在Map2Seq数据集上,相较于启发式和采样基线,导航误差降低了68.5%。该智能体的执行成功率、轨迹保真度和决策模式可作为OSM可见地标与拓扑条件下功能可导航性的代理指标,从而建立了一个可扩展、可解释且无需视觉依赖的评估范式。代码与数据可在https://anonymous.4open.science/r/groke获取。

0
下载
关闭预览

相关内容

面向具身操作的高效视觉–语言–动作模型:系统综述
专知会员服务
23+阅读 · 2025年10月22日
Python图像处理,366页pdf,Image Operators Image Processing in Python
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员