Relational Scene Graphs for Object Grounding of Natural Language Commands - 专知论文

会员服务 ·

0

自然语言指令 · 场景图 · 机器人 · 图实现 · 推断 ·

Relational Scene Graphs for Object Grounding of Natural Language Commands

翻译：基于关系场景图实现自然语言指令的目标物体定位

Julia Kuhn,Francesco Verdoja,Tsvetomila Mihaylova,Ville Kyrki

from arxiv, In review for RA-L

Robots are finding wider adoption in human environments, increasing the need for natural human-robot interaction. However, understanding a natural language command requires the robot to infer the intended task and how to decompose it into executable actions, and to ground those actions in the robot's knowledge of the environment, including relevant objects, agents, and locations. This challenge can be addressed by combining the capabilities of Large language models (LLMs) to understand natural language with 3D scene graphs (3DSGs) for grounding inferred actions in a semantic representation of the environment. However, many 3DSGs lack explicit spatial relations between objects, even though humans often rely on these relations to describe an environment. This paper investigates whether incorporating open- or closed-vocabulary spatial relations into 3DSGs can improve the ability of LLMs to interpret natural language commands. To address this, we propose an LLM-based pipeline for target object grounding from open-vocabulary language commands and a vision language model (VLM)-based pipeline to add open-vocabulary spatial edges to 3DSGs from images captured while mapping. Finally, two LLMs are evaluated in a study assessing their performance on the downstream task of target object grounding. Our study demonstrates that explicit spatial relations improve the ability of LLMs to ground objects. Moreover, open-vocabulary relation generation with VLMs proves feasible from robot-captured images, but their advantage over closed-vocabulary relations is found to be limited.

翻译：随着机器人在人类环境中的应用日益广泛，自然的人机交互需求日益增长。然而，理解自然语言指令要求机器人推断预期任务、将其分解为可执行动作，并将这些动作在机器人对环境（包括相关物体、智能体和位置）的认知中进行定位。这一挑战可以通过结合大型语言模型（LLMs）理解自然语言的能力与三维场景图（3DSGs）在环境语义表征中对推断动作进行定位的能力来解决。然而，许多3DSGs缺乏物体间显式的空间关系，而人类在描述环境时常常依赖这些关系。本文研究了将开放或封闭词汇的空间关系纳入3DSGs是否能提升LLMs解释自然语言指令的能力。为此，我们提出了一种基于LLM的流程，用于从开放词汇语言指令中定位目标物体；以及一种基于视觉语言模型（VLM）的流程，用于通过建图过程中捕获的图像为3DSGs添加开放词汇的空间边。最后，通过一项研究评估了两个LLMs在目标物体定位下游任务中的性能。我们的研究表明，显式空间关系能有效提升LLMs的物体定位能力。此外，利用VLMs从机器人捕获图像生成开放词汇关系被证明是可行的，但其相较于封闭词汇关系的优势较为有限。

0

相关内容

自然语言指令

自然语言指令

实时无人机指令处理：一种面向无人机系统的大语言模型方法

实时无人机指令处理：一种面向无人机系统的大语言模型方法

专知会员服务

20+阅读 · 2025年10月24日

【斯坦福博士论文】通过以人为本的自然语言界面拓展 AI 的可及性

【斯坦福博士论文】通过以人为本的自然语言界面拓展 AI 的可及性

专知会员服务

22+阅读 · 2025年6月17日

面向社会公益的自然语言处理：挑战、机遇与负责任部署综述

面向社会公益的自然语言处理：挑战、机遇与负责任部署综述

专知会员服务

13+阅读 · 2025年5月30日

西工大等最新《大型语言模型机器人技术》综述，详述多模态 GPT-4V 机器人技术

西工大等最新《大型语言模型机器人技术》综述，详述多模态 GPT-4V 机器人技术

专知会员服务

79+阅读 · 2024年1月10日

【CMU博士论文】非结构化环境中的多模态导航学习，177页pdf

【CMU博士论文】非结构化环境中的多模态导航学习，177页pdf

专知会员服务

49+阅读 · 2022年12月8日

基于图深度学习的自然语言处理方法和应用

基于图深度学习的自然语言处理方法和应用

专知会员服务

32+阅读 · 2022年5月3日

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

专知会员服务

38+阅读 · 2022年3月25日

【神经自然语言处理进展：建模，学习，推理】Progress in Neural NLP: Modeling, Learning, and Reasoning

【神经自然语言处理进展：建模，学习，推理】Progress in Neural NLP: Modeling, Learning, and Reasoning

专知会员服务

78+阅读 · 2020年8月13日

【O'Reilly TensorFlow World 2019】使用transformer架构的自然语言处理（Natural language processing using transformer architectures），Kiwisoft的机器学习顾问Aurelien Geron

【O'Reilly TensorFlow World 2019】使用transformer架构的自然语言处理（Natural language processing using transformer architectures），Kiwisoft的机器学习顾问Aurelien Geron

专知会员服务

17+阅读 · 2019年11月14日

学习自然语言处理路线图

学习自然语言处理路线图

专知会员服务

140+阅读 · 2019年9月24日

阿尔伯塔大学博士毕业论文：基于图结构的自然语言处理

阿尔伯塔大学博士毕业论文：基于图结构的自然语言处理

机器之心

15+阅读 · 2020年3月25日

自然语言生成资源列表

自然语言生成资源列表

专知

17+阅读 · 2020年1月4日

【CMU博士论文2019】建立知识感知的自然语言理解系统，附118页论文全文下载

【CMU博士论文2019】建立知识感知的自然语言理解系统，附118页论文全文下载

专知

22+阅读 · 2019年10月23日

清华大学刘知远《知识指导的自然语言处理》，附55页PPT下载

清华大学刘知远《知识指导的自然语言处理》，附55页PPT下载

专知

36+阅读 · 2019年7月7日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

如何用机器学习精准辨别“背景”和“目标”

如何用机器学习精准辨别“背景”和“目标”

论智

10+阅读 · 2018年10月22日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

知识在检索式对话系统的应用

知识在检索式对话系统的应用

微信AI

32+阅读 · 2018年9月20日

从语言学到深度学习NLP，一文概述自然语言处理

从语言学到深度学习NLP，一文概述自然语言处理

人工智能学家

13+阅读 · 2018年1月28日

Natural 自然语言处理（NLP）「全解析」

Natural 自然语言处理（NLP）「全解析」

人工智能学家

14+阅读 · 2017年9月23日

基于知识库构建的图像和视频角色语义关系的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于三维激光测距的移动机器人室外环境语义地图构建

国家自然科学基金

2+阅读 · 2015年12月31日

“自然语言-草图”耦合的地理场景查询方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

仿动物大脑网格细胞神经定位机制的同步定位与地图构建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂环境下面向激光扫描点云的三维目标定位方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

定位系统细胞启发的机器人情景认知地图构建与行为规划研究

国家自然科学基金

3+阅读 · 2015年12月31日

中文句子语义概念图自动构建方法及应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于关系语义的空间场景信息理解

国家自然科学基金

5+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

OGScene3D: Incremental Open-Vocabulary 3D Gaussian Scene Graph Mapping for Scene Understanding

Arxiv

0+阅读 · 3月17日

Asset-Centric Metric-Semantic Maps of Indoor Environments

Arxiv

0+阅读 · 3月10日

Learning to Retrieve Navigable Candidates for Efficient Vision-and-Language Navigation

Arxiv

0+阅读 · 2月17日

Replanning Human-Robot Collaborative Tasks with Vision-Language Models via Semantic and Physical Dual-Correction

Arxiv

0+阅读 · 2月16日

Ontological grounding for sound and natural robot explanations via large language models

Arxiv

0+阅读 · 2月14日

Integrated Exploration and Sequential Manipulation on Scene Graph with LLM-based Situated Replanning

Arxiv

0+阅读 · 2月14日

MomaGraph: State-Aware Unified Scene Graphs with Vision-Language Model for Embodied Task Planning

Arxiv

0+阅读 · 2月9日

Natural Language Instructions for Scene-Responsive Human-in-the-Loop Motion Planning in Autonomous Driving using Vision-Language-Action Models

Arxiv

0+阅读 · 2月4日

A Scene Graph Backed Approach to Open Set Semantic Mapping

Arxiv

0+阅读 · 2月3日

Relationship-Aware Hierarchical 3D Scene Graph for Task Reasoning

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

自然语言指令

最新内容

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

1+阅读 · 今天14:49

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

1+阅读 · 今天14:47

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

1+阅读 · 今天14:45

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

3+阅读 · 今天14:22

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

4+阅读 · 今天13:50

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

3+阅读 · 今天13:33

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

3+阅读 · 今天13:30

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

3+阅读 · 今天13:28

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

3+阅读 · 今天13:13

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

2+阅读 · 今天13:10

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

5+阅读 · 6月16日

多模态代码智能综述：从视觉输入到可执行代码系统

多模态代码智能综述：从视觉输入到可执行代码系统

专知会员服务

7+阅读 · 6月16日

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

5+阅读 · 6月16日

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

专知会员服务

5+阅读 · 6月16日

《通用大语言模型：无人机指挥与控制接口》最新40页

《通用大语言模型：无人机指挥与控制接口》最新40页

专知会员服务

15+阅读 · 6月16日

相关VIP内容

实时无人机指令处理：一种面向无人机系统的大语言模型方法

实时无人机指令处理：一种面向无人机系统的大语言模型方法

专知会员服务

20+阅读 · 2025年10月24日

【斯坦福博士论文】通过以人为本的自然语言界面拓展 AI 的可及性

【斯坦福博士论文】通过以人为本的自然语言界面拓展 AI 的可及性

专知会员服务

22+阅读 · 2025年6月17日

面向社会公益的自然语言处理：挑战、机遇与负责任部署综述

面向社会公益的自然语言处理：挑战、机遇与负责任部署综述

专知会员服务

13+阅读 · 2025年5月30日

西工大等最新《大型语言模型机器人技术》综述，详述多模态 GPT-4V 机器人技术

西工大等最新《大型语言模型机器人技术》综述，详述多模态 GPT-4V 机器人技术

专知会员服务

79+阅读 · 2024年1月10日

【CMU博士论文】非结构化环境中的多模态导航学习，177页pdf

【CMU博士论文】非结构化环境中的多模态导航学习，177页pdf

专知会员服务

49+阅读 · 2022年12月8日

基于图深度学习的自然语言处理方法和应用

基于图深度学习的自然语言处理方法和应用

专知会员服务

32+阅读 · 2022年5月3日

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

专知会员服务

38+阅读 · 2022年3月25日

【神经自然语言处理进展：建模，学习，推理】Progress in Neural NLP: Modeling, Learning, and Reasoning

【神经自然语言处理进展：建模，学习，推理】Progress in Neural NLP: Modeling, Learning, and Reasoning

专知会员服务

78+阅读 · 2020年8月13日

【O'Reilly TensorFlow World 2019】使用transformer架构的自然语言处理（Natural language processing using transformer architectures），Kiwisoft的机器学习顾问Aurelien Geron

【O'Reilly TensorFlow World 2019】使用transformer架构的自然语言处理（Natural language processing using transformer architectures），Kiwisoft的机器学习顾问Aurelien Geron

专知会员服务

17+阅读 · 2019年11月14日

学习自然语言处理路线图

学习自然语言处理路线图

专知会员服务

140+阅读 · 2019年9月24日

热门VIP内容

开通专知VIP会员享更多权益服务

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

学习数据的几何：形状空间分析数学综述

相关资讯

阿尔伯塔大学博士毕业论文：基于图结构的自然语言处理

阿尔伯塔大学博士毕业论文：基于图结构的自然语言处理

机器之心

15+阅读 · 2020年3月25日

自然语言生成资源列表

自然语言生成资源列表

专知

17+阅读 · 2020年1月4日

【CMU博士论文2019】建立知识感知的自然语言理解系统，附118页论文全文下载

【CMU博士论文2019】建立知识感知的自然语言理解系统，附118页论文全文下载

专知

22+阅读 · 2019年10月23日

清华大学刘知远《知识指导的自然语言处理》，附55页PPT下载

清华大学刘知远《知识指导的自然语言处理》，附55页PPT下载

专知

36+阅读 · 2019年7月7日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

如何用机器学习精准辨别“背景”和“目标”

如何用机器学习精准辨别“背景”和“目标”

论智

10+阅读 · 2018年10月22日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

知识在检索式对话系统的应用

知识在检索式对话系统的应用

微信AI

32+阅读 · 2018年9月20日

从语言学到深度学习NLP，一文概述自然语言处理

从语言学到深度学习NLP，一文概述自然语言处理

人工智能学家

13+阅读 · 2018年1月28日

Natural 自然语言处理（NLP）「全解析」

Natural 自然语言处理（NLP）「全解析」

人工智能学家

14+阅读 · 2017年9月23日

相关论文

OGScene3D: Incremental Open-Vocabulary 3D Gaussian Scene Graph Mapping for Scene Understanding

Arxiv

0+阅读 · 3月17日

Asset-Centric Metric-Semantic Maps of Indoor Environments

Arxiv

0+阅读 · 3月10日

Learning to Retrieve Navigable Candidates for Efficient Vision-and-Language Navigation

Arxiv

0+阅读 · 2月17日

Replanning Human-Robot Collaborative Tasks with Vision-Language Models via Semantic and Physical Dual-Correction

Arxiv

0+阅读 · 2月16日

Ontological grounding for sound and natural robot explanations via large language models

Arxiv

0+阅读 · 2月14日

Integrated Exploration and Sequential Manipulation on Scene Graph with LLM-based Situated Replanning

Arxiv

0+阅读 · 2月14日

MomaGraph: State-Aware Unified Scene Graphs with Vision-Language Model for Embodied Task Planning

Arxiv

0+阅读 · 2月9日

Natural Language Instructions for Scene-Responsive Human-in-the-Loop Motion Planning in Autonomous Driving using Vision-Language-Action Models

Arxiv

0+阅读 · 2月4日

A Scene Graph Backed Approach to Open Set Semantic Mapping

Arxiv

0+阅读 · 2月3日

Relationship-Aware Hierarchical 3D Scene Graph for Task Reasoning

Arxiv

0+阅读 · 2月2日

相关基金

基于知识库构建的图像和视频角色语义关系的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于三维激光测距的移动机器人室外环境语义地图构建

国家自然科学基金

2+阅读 · 2015年12月31日

“自然语言-草图”耦合的地理场景查询方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

仿动物大脑网格细胞神经定位机制的同步定位与地图构建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂环境下面向激光扫描点云的三维目标定位方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

定位系统细胞启发的机器人情景认知地图构建与行为规划研究

国家自然科学基金

3+阅读 · 2015年12月31日

中文句子语义概念图自动构建方法及应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于关系语义的空间场景信息理解

国家自然科学基金

5+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员