The relationships between objects and language are fundamental to meaningful communication between humans and AI, and to practically useful embodied intelligence. We introduce HieraNav, a multi-granularity, open-vocabulary goal navigation task where agents interpret natural language instructions to reach targets at four semantic levels: scene, room, region, and instance. To this end, we present Language as a Map (LangMap), a large-scale benchmark built on real-world 3D indoor scans with comprehensive human-verified annotations and tasks spanning these levels. LangMap provides region labels, discriminative region descriptions, discriminative instance descriptions covering 414 object categories, and over 18K navigation tasks. Each target features both concise and detailed descriptions, enabling evaluation across different instruction styles. LangMap achieves superior annotation quality, outperforming GOAT-Bench by 23.8% in discriminative accuracy using four times fewer words. Comprehensive evaluations of zero-shot and supervised models on LangMap reveal that richer context and memory improve success, while long-tailed, small, context-dependent, and distant goals, as well as multi-goal completion, remain challenging. HieraNav and LangMap establish a rigorous testbed for advancing language-driven embodied navigation. Project: https://bo-miao.github.io/LangMap


翻译:物体与语言之间的关系对于人类与人工智能之间的有效交流以及实际可用的具身智能至关重要。我们提出了HieraNav,一种多粒度、开放词汇的目标导航任务,其中智能体通过解析自然语言指令,在四个语义层级(场景、房间、区域和实例)上抵达目标。为此,我们构建了Language as a Map (LangMap),这是一个基于真实世界3D室内扫描的大规模基准数据集,包含全面的人工验证标注以及覆盖上述层级的任务。LangMap提供了区域标签、区分性区域描述、覆盖414个物体类别的区分性实例描述,以及超过18,000个导航任务。每个目标都配有简洁和详细两种描述,从而支持对不同指令风格进行评估。LangMap实现了卓越的标注质量,在区分性准确率上以仅四分之一词汇量超越了GOAT-Bench 23.8%。在LangMap上对零样本和监督模型进行的全面评估表明,更丰富的上下文和记忆能够提升成功率,而长尾分布、小型、上下文依赖以及远距离目标,以及多目标完成,仍然是挑战。HieraNav和LangMap为推进语言驱动的具身导航建立了一个严谨的测试平台。项目地址:https://bo-miao.github.io/LangMap

0
下载
关闭预览

相关内容

【新书】AI智能体与应用:基于 LangChain、LangGraph 与 MCP
专知会员服务
62+阅读 · 2025年9月12日
【ICLR2025】视觉与语言导航的通用场景适应
专知会员服务
9+阅读 · 2025年1月31日
【CVPR2024】SHiNe:用于开放词汇目标检测的语义层次枢纽
专知会员服务
14+阅读 · 2024年5月18日
国防科大《视觉-语言导航》综述论文,24页pdf154篇文献
专知会员服务
63+阅读 · 2021年8月27日
【NLP】万字长文概述NLP中的深度学习技术
产业智能官
18+阅读 · 2019年7月7日
万字长文概述NLP中的深度学习技术
全球人工智能
12+阅读 · 2019年2月28日
知识在检索式对话系统的应用
微信AI
32+阅读 · 2018年9月20日
深度上下文词向量
微信AI
27+阅读 · 2018年9月13日
领域应用 | NLP 和知识图谱:金融科技领域的“双子星”
开放知识图谱
21+阅读 · 2018年8月12日
基于 rasa 搭建中文对话系统 | 公开课
AI研习社
16+阅读 · 2018年1月12日
最全面的百度NLP自然语言处理技术解析
未来产业促进会
13+阅读 · 2017年11月12日
用Rasa NLU构建自己的中文NLU系统
待字闺中
18+阅读 · 2017年9月18日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【新书】AI智能体与应用:基于 LangChain、LangGraph 与 MCP
专知会员服务
62+阅读 · 2025年9月12日
【ICLR2025】视觉与语言导航的通用场景适应
专知会员服务
9+阅读 · 2025年1月31日
【CVPR2024】SHiNe:用于开放词汇目标检测的语义层次枢纽
专知会员服务
14+阅读 · 2024年5月18日
国防科大《视觉-语言导航》综述论文,24页pdf154篇文献
专知会员服务
63+阅读 · 2021年8月27日
相关资讯
【NLP】万字长文概述NLP中的深度学习技术
产业智能官
18+阅读 · 2019年7月7日
万字长文概述NLP中的深度学习技术
全球人工智能
12+阅读 · 2019年2月28日
知识在检索式对话系统的应用
微信AI
32+阅读 · 2018年9月20日
深度上下文词向量
微信AI
27+阅读 · 2018年9月13日
领域应用 | NLP 和知识图谱:金融科技领域的“双子星”
开放知识图谱
21+阅读 · 2018年8月12日
基于 rasa 搭建中文对话系统 | 公开课
AI研习社
16+阅读 · 2018年1月12日
最全面的百度NLP自然语言处理技术解析
未来产业促进会
13+阅读 · 2017年11月12日
用Rasa NLU构建自己的中文NLU系统
待字闺中
18+阅读 · 2017年9月18日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员