Relationship-Aware Hierarchical 3D Scene Graph for Task Reasoning - 专知论文

会员服务 ·

0

场景图 · 三维场景 · 结构 · 表示 · 度量 ·

Relationship-Aware Hierarchical 3D Scene Graph for Task Reasoning

翻译：关系感知的层次化三维场景图用于任务推理

Albert Gassol Puigjaner,Angelos Zacharia,Kostas Alexis

from arxiv, ICRA 2026, 8 pages

Representing and understanding 3D environments in a structured manner is crucial for autonomous agents to navigate and reason about their surroundings. While traditional Simultaneous Localization and Mapping (SLAM) methods generate metric reconstructions and can be extended to metric-semantic mapping, they lack a higher level of abstraction and relational reasoning. To address this gap, 3D scene graphs have emerged as a powerful representation for capturing hierarchical structures and object relationships. In this work, we propose an enhanced hierarchical 3D scene graph that integrates open-vocabulary features across multiple abstraction levels and supports object-relational reasoning. Our approach leverages a Vision Language Model (VLM) to infer semantic relationships. Notably, we introduce a task reasoning module that combines Large Language Models (LLM) and a VLM to interpret the scene graph's semantic and relational information, enabling agents to reason about tasks and interact with their environment more intelligently. We validate our method by deploying it on a quadruped robot in multiple environments and tasks, highlighting its ability to reason about them.

翻译：以结构化方式表示和理解三维环境对于自主智能体导航和推理其周围环境至关重要。虽然传统的同步定位与建图方法生成度量重建并可扩展为度量-语义建图，但它们缺乏更高层次的抽象和关系推理能力。为弥补这一不足，三维场景图已成为捕捉层次化结构和物体关系的强大表示方法。本研究提出一种增强的层次化三维场景图，该图在多个抽象层次上整合开放词汇特征，并支持物体关系推理。我们的方法利用视觉语言模型推断语义关系。值得注意的是，我们引入了一个任务推理模块，该模块结合大型语言模型和视觉语言模型来解析场景图的语义与关系信息，使智能体能够推理任务并更智能地与环境交互。我们通过在四足机器人的多种环境和任务中部署该方法进行验证，突显了其任务推理能力。

0

相关内容

场景图

一种基于视觉算法生成三维场景重建的多任务系统 | 2025最新200页

一种基于视觉算法生成三维场景重建的多任务系统 | 2025最新200页

专知会员服务

25+阅读 · 2025年10月20日

【剑桥博士论文】基于图像的三维重建：神经隐式表示的可微渲染方法

【剑桥博士论文】基于图像的三维重建：神经隐式表示的可微渲染方法

专知会员服务

18+阅读 · 2025年6月5日

三维场景生成：综述

三维场景生成：综述

专知会员服务

21+阅读 · 2025年5月9日

【ETHZ博士论文】神经场景表示用于三维重建和场景理解

【ETHZ博士论文】神经场景表示用于三维重建和场景理解

专知会员服务

37+阅读 · 2024年3月15日

图与基础模型：多模态基础模型关系推理能力概述

图与基础模型：多模态基础模型关系推理能力概述

专知会员服务

30+阅读 · 2023年12月23日

【图宾根大学博士论文】神经场景表示在三维重建和生成建模中的应用

【图宾根大学博士论文】神经场景表示在三维重建和生成建模中的应用

专知会员服务

40+阅读 · 2023年12月2日

普适案例｜从图谱构建到应用，企业关联关系知识图谱应用实例！

普适案例｜从图谱构建到应用，企业关联关系知识图谱应用实例！

专知会员服务

32+阅读 · 2022年6月30日

【TPAMI2022-清华】OANet：基于层次结构的图神经网络来学习两视图几何匹配关系建立

【TPAMI2022-清华】OANet：基于层次结构的图神经网络来学习两视图几何匹配关系建立

专知会员服务

28+阅读 · 2022年5月30日

【CMU-Paloma Sodhi博士论文】因子图的学习和推理与触觉感知的应用，Learning and Inference in Factor Graphs with Applications to Tactile Perception

【CMU-Paloma Sodhi博士论文】因子图的学习和推理与触觉感知的应用，Learning and Inference in Factor Graphs with Applications to Tactile Perception

专知会员服务

24+阅读 · 2022年3月10日

事件图谱的构建、推理与应用

专知会员服务

129+阅读 · 2021年6月12日

【UCLA】动态图表示学习，40页ppt，Dynamic Graph Representation Learning

【UCLA】动态图表示学习，40页ppt，Dynamic Graph Representation Learning

专知

27+阅读 · 2021年3月7日

基于知识图谱的问答系统

基于知识图谱的问答系统

PaperWeekly

21+阅读 · 2021年2月8日

通俗易懂！《图机器学习导论》附69页PPT

通俗易懂！《图机器学习导论》附69页PPT

专知

55+阅读 · 2019年12月27日

清华大学唐杰老师：用于理解、推理和决策的认知图计算

清华大学唐杰老师：用于理解、推理和决策的认知图计算

专知

17+阅读 · 2019年11月29日

【HEC-Montreal唐建博士】图神经网络推理，附27页ppt

【HEC-Montreal唐建博士】图神经网络推理，附27页ppt

专知

47+阅读 · 2019年10月30日

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

计算机视觉life

19+阅读 · 2018年12月27日

图神经网络最近这么火，不妨看看我们精选的这七篇

图神经网络最近这么火，不妨看看我们精选的这七篇

人工智能前沿讲习班

37+阅读 · 2018年12月10日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

【学界】李飞飞学生最新论文：利用场景图生成图像

【学界】李飞飞学生最新论文：利用场景图生成图像

GAN生成式对抗网络

15+阅读 · 2018年4月9日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

基于分层与或图模型的光学遥感图像场景理解方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于三维激光测距的移动机器人室外环境语义地图构建

国家自然科学基金

2+阅读 · 2015年12月31日

基于超图的三维模型检索方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于跨媒体可视分析的三维对象关联检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于草图的几何处理和应用

国家自然科学基金

2+阅读 · 2015年12月31日

三维场景中基于空间方向关系的混合索引结构研究

国家自然科学基金

0+阅读 · 2015年12月31日

中文句子语义概念图自动构建方法及应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

基于关系语义的空间场景信息理解

国家自然科学基金

5+阅读 · 2014年12月31日

高维时空场数据的层次张量建模与分析方法

国家自然科学基金

2+阅读 · 2014年12月31日

MessyKitchens: Contact-rich object-level 3D scene reconstruction

Arxiv

0+阅读 · 3月17日

OGScene3D: Incremental Open-Vocabulary 3D Gaussian Scene Graph Mapping for Scene Understanding

Arxiv

0+阅读 · 3月17日

vS-Graphs: Tightly Coupling Visual SLAM and 3D Scene Graphs Exploiting Hierarchical Scene Understanding

Arxiv

0+阅读 · 3月11日

Towards Geometric and Textural Consistency 3D Scene Generation via Single Image-guided Model Generation and Layout Optimization

Arxiv

1+阅读 · 2月17日

Generation of Uncertainty-Aware High-Level Spatial Concepts in Factorized 3D Scene Graphs via Graph Neural Networks

Arxiv

0+阅读 · 2月15日

INHerit-SG: Incremental Hierarchical Semantic Scene Graphs with RAG-Style Retrieval

Arxiv

0+阅读 · 2月13日

MomaGraph: State-Aware Unified Scene Graphs with Vision-Language Model for Embodied Task Planning

Arxiv

0+阅读 · 2月9日

Perspective-aware fusion of incomplete depth maps and surface normals for accurate 3D reconstruction

Arxiv

0+阅读 · 2月7日

Object-Centric Representation Learning for Enhanced 3D Scene Graph Prediction

Arxiv

0+阅读 · 2月2日

Open-Vocabulary Functional 3D Human-Scene Interaction Generation

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

速度优先于谨慎：NSPM-11意味着什么（将人工智能融入美国国防和情报行动最全面的声明）

速度优先于谨慎：NSPM-11意味着什么（将人工智能融入美国国防和情报行动最全面的声明）

专知会员服务

5+阅读 · 6月10日

《基于深度强化学习的反无人机技术研究》178页

《基于深度强化学习的反无人机技术研究》178页

专知会员服务

2+阅读 · 6月10日

技术突破与战略优势竞争：美军人工智能技术运用阶段分析

技术突破与战略优势竞争：美军人工智能技术运用阶段分析

专知会员服务

3+阅读 · 6月10日

“史诗怒火”行动与“AI中心战”模式的浮现

“史诗怒火”行动与“AI中心战”模式的浮现

专知会员服务

3+阅读 · 6月10日

【CVPR2026教程】扩散模型的解析理解

【CVPR2026教程】扩散模型的解析理解

专知会员服务

0+阅读 · 6月10日

【CVPR2026教程】从感知到模拟：多模态推理中世界模型的涌现

【CVPR2026教程】从感知到模拟：多模态推理中世界模型的涌现

专知会员服务

1+阅读 · 6月10日

马赛克战：俄乌战场透析

马赛克战：俄乌战场透析

专知会员服务

14+阅读 · 6月10日

《利用人工智能增强军事决策》

《利用人工智能增强军事决策》

专知会员服务

6+阅读 · 6月10日

《自动机器学习在军事数据耕耘法中的应用》

《自动机器学习在军事数据耕耘法中的应用》

专知会员服务

8+阅读 · 6月10日

为何指挥所生存能力要求范式转变

为何指挥所生存能力要求范式转变

专知会员服务

5+阅读 · 6月10日

打造“新蛛网”模式与高科技动员

打造“新蛛网”模式与高科技动员

专知会员服务

4+阅读 · 6月10日

“蛛网”行动一周年：远程无人机战争

“蛛网”行动一周年：远程无人机战争

专知会员服务

3+阅读 · 6月10日

加沙、乌克兰和伊朗冲突：人工智能如何改变冲突

加沙、乌克兰和伊朗冲突：人工智能如何改变冲突

专知会员服务

3+阅读 · 6月10日

为何“第一次人工智能战争（美以伊冲突）”仍是人类主导的斗争

为何“第一次人工智能战争（美以伊冲突）”仍是人类主导的斗争

专知会员服务

3+阅读 · 6月10日

【剑桥博士论文】智能体-环境协同优化

【剑桥博士论文】智能体-环境协同优化

专知会员服务

9+阅读 · 6月9日

相关VIP内容

一种基于视觉算法生成三维场景重建的多任务系统 | 2025最新200页

一种基于视觉算法生成三维场景重建的多任务系统 | 2025最新200页

专知会员服务

25+阅读 · 2025年10月20日

【剑桥博士论文】基于图像的三维重建：神经隐式表示的可微渲染方法

【剑桥博士论文】基于图像的三维重建：神经隐式表示的可微渲染方法

专知会员服务

18+阅读 · 2025年6月5日

三维场景生成：综述

三维场景生成：综述

专知会员服务

21+阅读 · 2025年5月9日

【ETHZ博士论文】神经场景表示用于三维重建和场景理解

【ETHZ博士论文】神经场景表示用于三维重建和场景理解

专知会员服务

37+阅读 · 2024年3月15日

图与基础模型：多模态基础模型关系推理能力概述

图与基础模型：多模态基础模型关系推理能力概述

专知会员服务

30+阅读 · 2023年12月23日

【图宾根大学博士论文】神经场景表示在三维重建和生成建模中的应用

【图宾根大学博士论文】神经场景表示在三维重建和生成建模中的应用

专知会员服务

40+阅读 · 2023年12月2日

普适案例｜从图谱构建到应用，企业关联关系知识图谱应用实例！

普适案例｜从图谱构建到应用，企业关联关系知识图谱应用实例！

专知会员服务

32+阅读 · 2022年6月30日

【TPAMI2022-清华】OANet：基于层次结构的图神经网络来学习两视图几何匹配关系建立

【TPAMI2022-清华】OANet：基于层次结构的图神经网络来学习两视图几何匹配关系建立

专知会员服务

28+阅读 · 2022年5月30日

【CMU-Paloma Sodhi博士论文】因子图的学习和推理与触觉感知的应用，Learning and Inference in Factor Graphs with Applications to Tactile Perception

【CMU-Paloma Sodhi博士论文】因子图的学习和推理与触觉感知的应用，Learning and Inference in Factor Graphs with Applications to Tactile Perception

专知会员服务

24+阅读 · 2022年3月10日

事件图谱的构建、推理与应用

专知会员服务

129+阅读 · 2021年6月12日

热门VIP内容

开通专知VIP会员享更多权益服务

《基于深度强化学习的反无人机技术研究》178页

“史诗怒火”行动与“AI中心战”模式的浮现

速度优先于谨慎：NSPM-11意味着什么（将人工智能融入美国国防和情报行动最全面的声明）

技术突破与战略优势竞争：美军人工智能技术运用阶段分析

相关资讯

【UCLA】动态图表示学习，40页ppt，Dynamic Graph Representation Learning

【UCLA】动态图表示学习，40页ppt，Dynamic Graph Representation Learning

专知

27+阅读 · 2021年3月7日

基于知识图谱的问答系统

基于知识图谱的问答系统

PaperWeekly

21+阅读 · 2021年2月8日

通俗易懂！《图机器学习导论》附69页PPT

通俗易懂！《图机器学习导论》附69页PPT

专知

55+阅读 · 2019年12月27日

清华大学唐杰老师：用于理解、推理和决策的认知图计算

清华大学唐杰老师：用于理解、推理和决策的认知图计算

专知

17+阅读 · 2019年11月29日

【HEC-Montreal唐建博士】图神经网络推理，附27页ppt

【HEC-Montreal唐建博士】图神经网络推理，附27页ppt

专知

47+阅读 · 2019年10月30日

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

计算机视觉life

19+阅读 · 2018年12月27日

图神经网络最近这么火，不妨看看我们精选的这七篇

图神经网络最近这么火，不妨看看我们精选的这七篇

人工智能前沿讲习班

37+阅读 · 2018年12月10日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

【学界】李飞飞学生最新论文：利用场景图生成图像

【学界】李飞飞学生最新论文：利用场景图生成图像

GAN生成式对抗网络

15+阅读 · 2018年4月9日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

相关论文

MessyKitchens: Contact-rich object-level 3D scene reconstruction

Arxiv

0+阅读 · 3月17日

OGScene3D: Incremental Open-Vocabulary 3D Gaussian Scene Graph Mapping for Scene Understanding

Arxiv

0+阅读 · 3月17日

vS-Graphs: Tightly Coupling Visual SLAM and 3D Scene Graphs Exploiting Hierarchical Scene Understanding

Arxiv

0+阅读 · 3月11日

Towards Geometric and Textural Consistency 3D Scene Generation via Single Image-guided Model Generation and Layout Optimization

Arxiv

1+阅读 · 2月17日

Generation of Uncertainty-Aware High-Level Spatial Concepts in Factorized 3D Scene Graphs via Graph Neural Networks

Arxiv

0+阅读 · 2月15日

INHerit-SG: Incremental Hierarchical Semantic Scene Graphs with RAG-Style Retrieval

Arxiv

0+阅读 · 2月13日

MomaGraph: State-Aware Unified Scene Graphs with Vision-Language Model for Embodied Task Planning

Arxiv

0+阅读 · 2月9日

Perspective-aware fusion of incomplete depth maps and surface normals for accurate 3D reconstruction

Arxiv

0+阅读 · 2月7日

Object-Centric Representation Learning for Enhanced 3D Scene Graph Prediction

Arxiv

0+阅读 · 2月2日

Open-Vocabulary Functional 3D Human-Scene Interaction Generation

Arxiv

0+阅读 · 1月30日

相关基金

基于分层与或图模型的光学遥感图像场景理解方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于三维激光测距的移动机器人室外环境语义地图构建

国家自然科学基金

2+阅读 · 2015年12月31日

基于超图的三维模型检索方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于跨媒体可视分析的三维对象关联检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于草图的几何处理和应用

国家自然科学基金

2+阅读 · 2015年12月31日

三维场景中基于空间方向关系的混合索引结构研究

国家自然科学基金

0+阅读 · 2015年12月31日

中文句子语义概念图自动构建方法及应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

基于关系语义的空间场景信息理解

国家自然科学基金

5+阅读 · 2014年12月31日

高维时空场数据的层次张量建模与分析方法

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员