RAG-3DSG：通过重拍引导的检索增强生成增强三维场景图 (RAG-3DSG: Enhancing 3D Scene Graphs with Re-Shot Guided Retrieval-Augmented Generation) - 专知论文

会员服务 ·

0

三维场景 · 场景图 · 表示 · 检索增强 · 场景图生成 ·

RAG-3DSG: Enhancing 3D Scene Graphs with Re-Shot Guided Retrieval-Augmented Generation

翻译：RAG-3DSG：通过重拍引导的检索增强生成增强三维场景图

Yue Chang,Rufeng Chen,Zhaofan Zhang,Yi Chen,Sihong Xie

from arxiv, 9 pages, 6 figures

Open-vocabulary 3D Scene Graph (3DSG) generation can enhance various downstream tasks in robotics, such as manipulation and navigation, by leveraging structured semantic representations. A 3DSG is constructed from multiple images of a scene, where objects are represented as nodes and relationships as edges. However, existing works for open-vocabulary 3DSG generation suffer from both low object-level recognition accuracy and speed, mainly due to constrained viewpoints, occlusions, and redundant surface density. To address these challenges, we propose RAG-3DSG to mitigate aggregation noise through re-shot guided uncertainty estimation and support object-level Retrieval-Augmented Generation (RAG) via reliable low-uncertainty objects. Furthermore, we propose a dynamic downsample-mapping strategy to accelerate cross-image object aggregation with adaptive granularity. Experiments on Replica dataset demonstrate that RAG-3DSG significantly improves node captioning accuracy in 3DSG generation while reducing the mapping time by two-thirds compared to the vanilla version.

翻译：开放词汇三维场景图（3DSG）生成能够利用结构化的语义表示，增强机器人学中多种下游任务（如操作与导航）的性能。三维场景图由场景的多个图像构建而成，其中对象表示为节点，关系表示为边。然而，现有的开放词汇三维场景图生成方法在对象级识别准确率和速度上均存在不足，这主要受限于视角约束、遮挡以及冗余的表面密度。为应对这些挑战，我们提出了RAG-3DSG，该方法通过重拍引导的不确定性估计来减轻聚合噪声，并借助可靠的低不确定性对象支持对象级的检索增强生成。此外，我们提出了一种动态下采样-映射策略，以自适应粒度加速跨图像对象聚合。在Replica数据集上的实验表明，与原始版本相比，RAG-3DSG显著提升了三维场景图生成中的节点描述准确率，同时将映射时间减少了三分之二。

0

相关内容

三维场景

【新书】Essential GraphRAG: 知识图谱增强的RAG

【新书】Essential GraphRAG: 知识图谱增强的RAG

专知会员服务

32+阅读 · 2025年7月17日

【新书】检索增强生成（RAG）入门指南

【新书】检索增强生成（RAG）入门指南

专知会员服务

29+阅读 · 2025年6月25日

三维场景生成：综述

三维场景生成：综述

专知会员服务

21+阅读 · 2025年5月9日

三维物体与场景生成的最新进展：综述

三维物体与场景生成的最新进展：综述

专知会员服务

17+阅读 · 2025年4月17日

图增强生成（GraphRAG）

图增强生成（GraphRAG）

专知会员服务

34+阅读 · 2025年1月4日

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

专知会员服务

48+阅读 · 2024年12月17日

图检索增强生成研究进展

图检索增强生成研究进展

专知会员服务

36+阅读 · 2024年11月5日

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

专知会员服务

54+阅读 · 2024年8月22日

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

专知会员服务

48+阅读 · 2023年4月20日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

西电最新《场景图生成SGG》全面综述论文，阐述总结138项工作

西电最新《场景图生成SGG》全面综述论文，阐述总结138项工作

专知

13+阅读 · 2022年1月4日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

三维重建 3D reconstruction 有哪些实用算法？

三维重建 3D reconstruction 有哪些实用算法？

极市平台

13+阅读 · 2020年2月23日

计算机视觉方向简介 | 三维重建技术概述

计算机视觉方向简介 | 三维重建技术概述

计算机视觉life

26+阅读 · 2019年6月13日

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

计算机视觉life

19+阅读 · 2018年12月27日

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

泡泡机器人SLAM

47+阅读 · 2018年8月1日

计算机视觉方向简介 | 深度相机室内实时稠密三维重建

计算机视觉方向简介 | 深度相机室内实时稠密三维重建

计算机视觉life

17+阅读 · 2018年5月23日

【学界】李飞飞学生最新论文：利用场景图生成图像

【学界】李飞飞学生最新论文：利用场景图生成图像

GAN生成式对抗网络

15+阅读 · 2018年4月9日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

动态环境下的实时高清大规模三维地形重建研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于三维激光测距的移动机器人室外环境语义地图构建

国家自然科学基金

2+阅读 · 2015年12月31日

基于超图的三维模型检索方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于体素划分模型的多视图深度信息融合三维重建研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于跨媒体可视分析的三维对象关联检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于草图语义部件的三维模型检索技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

三维场景中基于空间方向关系的混合索引结构研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

复杂场景点线光流三维重建模型的建立及鲁棒性分析

国家自然科学基金

2+阅读 · 2014年12月31日

PartRAG: Retrieval-Augmented Part-Level 3D Generation and Editing

Arxiv

0+阅读 · 2月19日

Towards Geometric and Textural Consistency 3D Scene Generation via Single Image-guided Model Generation and Layout Optimization

Arxiv

0+阅读 · 2月17日

Sketch2Scene: Automatic Generation of Interactive 3D Game Scenes from User's Casual Sketches

Arxiv

0+阅读 · 2月6日

MA3DSG: Multi-Agent 3D Scene Graph Generation for Large-Scale Indoor Environments

Arxiv

0+阅读 · 2月4日

Relationship-Aware Hierarchical 3D Scene Graph for Task Reasoning

Arxiv

0+阅读 · 2月2日

Object-Centric Representation Learning for Enhanced 3D Scene Graph Prediction

Arxiv

0+阅读 · 2月2日

SimGraph: A Unified Framework for Scene Graph-Based Image Generation and Editing

Arxiv

0+阅读 · 1月29日

GeoDiff3D: Self-Supervised 3D Scene Generation with Geometry-Constrained 2D Diffusion Guidance

Arxiv

0+阅读 · 1月28日

GraphRAG-R1: Graph Retrieval-Augmented Generation with Process-Constrained Reinforcement Learning

Arxiv

0+阅读 · 1月27日

SceneFoundry: Generating Interactive Infinite 3D Worlds

Arxiv

0+阅读 · 1月16日

VIP会员

文章信息

相关主题

场景图生成

相关VIP内容

【新书】Essential GraphRAG: 知识图谱增强的RAG

【新书】Essential GraphRAG: 知识图谱增强的RAG

专知会员服务

32+阅读 · 2025年7月17日

【新书】检索增强生成（RAG）入门指南

【新书】检索增强生成（RAG）入门指南

专知会员服务

29+阅读 · 2025年6月25日

三维场景生成：综述

三维场景生成：综述

专知会员服务

21+阅读 · 2025年5月9日

三维物体与场景生成的最新进展：综述

三维物体与场景生成的最新进展：综述

专知会员服务

17+阅读 · 2025年4月17日

图增强生成（GraphRAG）

图增强生成（GraphRAG）

专知会员服务

34+阅读 · 2025年1月4日

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

专知会员服务

48+阅读 · 2024年12月17日

图检索增强生成研究进展

图检索增强生成研究进展

专知会员服务

36+阅读 · 2024年11月5日

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

专知会员服务

54+阅读 · 2024年8月22日

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

专知会员服务

48+阅读 · 2023年4月20日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

热门VIP内容

开通专知VIP会员享更多权益服务

《可信人工智能赋能系统的支柱》

《从经典神经网络到不确定性下的拓扑神经网络：军事应用》2026最新40页报告

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

《人工智能：对战略与力量的影响》slides

相关资讯

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

西电最新《场景图生成SGG》全面综述论文，阐述总结138项工作

西电最新《场景图生成SGG》全面综述论文，阐述总结138项工作

专知

13+阅读 · 2022年1月4日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

三维重建 3D reconstruction 有哪些实用算法？

三维重建 3D reconstruction 有哪些实用算法？

极市平台

13+阅读 · 2020年2月23日

计算机视觉方向简介 | 三维重建技术概述

计算机视觉方向简介 | 三维重建技术概述

计算机视觉life

26+阅读 · 2019年6月13日

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

计算机视觉life

19+阅读 · 2018年12月27日

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

泡泡机器人SLAM

47+阅读 · 2018年8月1日

计算机视觉方向简介 | 深度相机室内实时稠密三维重建

计算机视觉方向简介 | 深度相机室内实时稠密三维重建

计算机视觉life

17+阅读 · 2018年5月23日

【学界】李飞飞学生最新论文：利用场景图生成图像

【学界】李飞飞学生最新论文：利用场景图生成图像

GAN生成式对抗网络

15+阅读 · 2018年4月9日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

相关论文

PartRAG: Retrieval-Augmented Part-Level 3D Generation and Editing

Arxiv

0+阅读 · 2月19日

Towards Geometric and Textural Consistency 3D Scene Generation via Single Image-guided Model Generation and Layout Optimization

Arxiv

0+阅读 · 2月17日

Sketch2Scene: Automatic Generation of Interactive 3D Game Scenes from User's Casual Sketches

Arxiv

0+阅读 · 2月6日

MA3DSG: Multi-Agent 3D Scene Graph Generation for Large-Scale Indoor Environments

Arxiv

0+阅读 · 2月4日

Relationship-Aware Hierarchical 3D Scene Graph for Task Reasoning

Arxiv

0+阅读 · 2月2日

Object-Centric Representation Learning for Enhanced 3D Scene Graph Prediction

Arxiv

0+阅读 · 2月2日

SimGraph: A Unified Framework for Scene Graph-Based Image Generation and Editing

Arxiv

0+阅读 · 1月29日

GeoDiff3D: Self-Supervised 3D Scene Generation with Geometry-Constrained 2D Diffusion Guidance

Arxiv

0+阅读 · 1月28日

GraphRAG-R1: Graph Retrieval-Augmented Generation with Process-Constrained Reinforcement Learning

Arxiv

0+阅读 · 1月27日

SceneFoundry: Generating Interactive Infinite 3D Worlds

Arxiv

0+阅读 · 1月16日

相关基金

动态环境下的实时高清大规模三维地形重建研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于三维激光测距的移动机器人室外环境语义地图构建

国家自然科学基金

2+阅读 · 2015年12月31日

基于超图的三维模型检索方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于体素划分模型的多视图深度信息融合三维重建研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于跨媒体可视分析的三维对象关联检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于草图语义部件的三维模型检索技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

三维场景中基于空间方向关系的混合索引结构研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

复杂场景点线光流三维重建模型的建立及鲁棒性分析

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员