LEXI-SG: Monocular 3D Scene Graph Mapping with Room-Guided Feed-Forward Reconstruction - 专知论文

会员服务 ·

0

图 · 3D · Performer · 表示 · LIDAR ·

LEXI-SG: Monocular 3D Scene Graph Mapping with Room-Guided Feed-Forward Reconstruction

翻译：LEXI-SG：基于房间引导前馈重建的单目3D场景图建图

Christina Kassab,Hyeonjae Gil,Matías Mattamala,Ayoung Kim,Maurice Fallon

Scene graphs are becoming a standard representation for robot navigation, providing hierarchical geometric and semantic scene understanding. However, most scene graph mapping methods rely on depth cameras or LiDAR sensors. In this work, we present LEXI-SG, the first dense monocular visual mapping system for open-vocabulary 3D scene graphs using only RGB camera input. Our approach exploits the semantic priors of open-vocabulary foundation models to partition the scene into rooms, deferring feed-forward reconstruction to when each room is fully observed -- enabling scalable dense mapping without sliding-window scale inconsistencies. We propose a room-based factor graph formulation to globally align room reconstructions while preserving local map consistency and naturally imposing the semantic scene graph hierarchy. Within each room, we further support open-vocabulary object segmentation and tracking. We validate LEXI-SG on indoor scenes from the Habitat-Matterport 3D and self-collected egocentric office sequences. We evaluate its performance against existing feed-forward SLAM methods, as well as established scene graphs baselines. We demonstrate improved trajectory estimation and dense reconstruction, as well as, competitive performance in open-vocabulary segmentation. LEXI-SG shows that accurate, scalable, open-vocabulary 3D scene graphs can be achieved from monocular RGB alone. Our project page and office sequences are available here: https://ori-drs.github.io/lexisg-web/.

翻译：场景图正成为机器人导航的标准表示方式，可提供层次化的几何与语义场景理解。然而，现有场景图建图方法大多依赖深度相机或激光雷达传感器。本文提出LEXI-SG——首个仅利用RGB相机输入的密集单目视觉建图系统，用于构建开放词汇3D场景图。该方法利用开放词汇基础模型的语义先验将场景划分为房间，并在每个房间被完整观测后才进行前馈重建，从而在避免滑动窗口尺度不一致的前提下实现可扩展的密集建图。我们提出基于房间的因子图框架，在保持局部地图一致性的同时全局对齐房间重建结果，并自然构建语义场景图层次结构。在每个房间内，我们还支持开放词汇目标分割与跟踪。在Habitat-Matterport 3D室内场景及自采第一人称办公室序列上的实验表明：与现有前馈SLAM方法及标准场景图基线相比，LEXI-SG在轨迹估计与密集重建方面表现更优，同时在开放词汇分割任务上具有竞争力。LEXI-SG证明了仅凭单目RGB即可实现精确、可扩展的开放词汇3D场景图。项目主页与办公室序列详见：https://ori-drs.github.io/lexisg-web/。

0

相关内容

前馈式三维场景建模

前馈式三维场景建模

专知会员服务

13+阅读 · 4月17日

基于深度学习的草图 3D 建模研究综述

基于深度学习的草图 3D 建模研究综述

专知会员服务

8+阅读 · 3月5日

【博士论文】室内场景三维重建的基于学习的方法

【博士论文】室内场景三维重建的基于学习的方法

专知会员服务

12+阅读 · 2月16日

一种基于视觉算法生成三维场景重建的多任务系统 | 2025最新200页

一种基于视觉算法生成三维场景重建的多任务系统 | 2025最新200页

专知会员服务

26+阅读 · 2025年10月20日

【ICLR2025】基于图形引导的图像场景重建：3D高斯散射方法

【ICLR2025】基于图形引导的图像场景重建：3D高斯散射方法

专知会员服务

13+阅读 · 2025年2月25日

【图宾根大学博士论文】神经场景表示在三维重建和生成建模中的应用

【图宾根大学博士论文】神经场景表示在三维重建和生成建模中的应用

专知会员服务

40+阅读 · 2023年12月2日

【伯克利博士论文】基于神经辐射场的目标和场景重建,117页pdf

【伯克利博士论文】基于神经辐射场的目标和场景重建,117页pdf

专知会员服务

38+阅读 · 2023年5月19日

【CVPR 2022】单目3D语义场景完成框架，MonoScene: Monocular 3D Semantic Scene Completion

【CVPR 2022】单目3D语义场景完成框架，MonoScene: Monocular 3D Semantic Scene Completion

专知会员服务

16+阅读 · 2022年3月3日

场景图生成:一个全面综述

场景图生成:一个全面综述

专知会员服务

67+阅读 · 2022年1月4日

如何在交通领域构建基于图的深度学习体系结构:一个综述，How to Build a Graph-Based Deep Learning Architecture in Traffic Domain: A Survey

如何在交通领域构建基于图的深度学习体系结构:一个综述，How to Build a Graph-Based Deep Learning Architecture in Traffic Domain: A Survey

专知会员服务

51+阅读 · 2020年5月26日

西电最新《场景图生成SGG》全面综述论文，阐述总结138项工作

西电最新《场景图生成SGG》全面综述论文，阐述总结138项工作

专知

13+阅读 · 2022年1月4日

【泡泡一分钟】用于视角可变重定位的语义地图构建

【泡泡一分钟】用于视角可变重定位的语义地图构建

泡泡机器人SLAM

19+阅读 · 2019年10月21日

【泡泡图灵智库】基于RGB-D相机多视图深度学习的一致语义建图

【泡泡图灵智库】基于RGB-D相机多视图深度学习的一致语义建图

泡泡机器人SLAM

12+阅读 · 2019年9月3日

【泡泡图灵智库】CNN-SVO 提升半直接视觉里程计的建图效果（arXiv）

【泡泡图灵智库】CNN-SVO 提升半直接视觉里程计的建图效果（arXiv）

泡泡机器人SLAM

29+阅读 · 2019年5月27日

【泡泡图灵智库】SGPN：用于3D点云实例分割的相似群建议网络（CVPR）

【泡泡图灵智库】SGPN：用于3D点云实例分割的相似群建议网络（CVPR）

泡泡机器人SLAM

15+阅读 · 2019年1月21日

【泡泡图灵智库】DynaSLAM：动态场景中的追踪、建图和修复（arXiv）

【泡泡图灵智库】DynaSLAM：动态场景中的追踪、建图和修复（arXiv）

泡泡机器人SLAM

14+阅读 · 2019年1月9日

【泡泡图灵智库】RTAB-Map : 一个大规模且长期在线的激光与视觉SLAM开源库

【泡泡图灵智库】RTAB-Map : 一个大规模且长期在线的激光与视觉SLAM开源库

泡泡机器人SLAM

34+阅读 · 2018年12月25日

【学界】李飞飞学生最新论文：利用场景图生成图像

【学界】李飞飞学生最新论文：利用场景图生成图像

GAN生成式对抗网络

15+阅读 · 2018年4月9日

【泡泡一分钟】基于多视图卷积网络的草图三维重建技术(3dv-66)

【泡泡一分钟】基于多视图卷积网络的草图三维重建技术(3dv-66)

泡泡机器人SLAM

11+阅读 · 2018年3月31日

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

AI研习社

10+阅读 · 2018年3月6日

基于分层与或图模型的光学遥感图像场景理解方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

动态环境下的实时高清大规模三维地形重建研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于三维激光测距的移动机器人室外环境语义地图构建

国家自然科学基金

2+阅读 · 2015年12月31日

基于结构单元探测与修复的车载LiDAR数据建筑物立面模型三维重建研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向无人机基于在线场景建模的室外目标检测与跟踪方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于线性规划感知的压缩高光谱遥感图像快速重建

国家自然科学基金

0+阅读 · 2015年12月31日

复杂环境下面向激光扫描点云的三维目标定位方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

地面激光雷达与设计数据正逆向结合的建筑物三维重建技术

国家自然科学基金

0+阅读 · 2015年12月31日

复杂场景点线光流三维重建模型的建立及鲁棒性分析

国家自然科学基金

2+阅读 · 2014年12月31日

形状先验和数据驱动的高分辨遥感影像目标提取

国家自然科学基金

3+阅读 · 2014年12月31日

LentiAvatar: Pseudo-Multiview Reconstruction and Subpixel Prism Rendering for Real-Time Stereoscopic Communication

Arxiv

0+阅读 · 6月15日

JointEdit3D: Feed-Forward 3D Scene Editing in a Unified Latent Space

Arxiv

0+阅读 · 6月11日

Occupancy-Grounded Room Segmentation for Hierarchical 3D Scene Graphs

Arxiv

0+阅读 · 6月11日

LEMON-Mapping: Loop-Enhanced Large-Scale Multi-Session Point Cloud Merging and Optimization for Globally Consistent Mapping

Arxiv

0+阅读 · 6月10日

FOUND-IT: Foundation-model-first Task-driven 3D Scene Graphs with Granularity on Demand

Arxiv

0+阅读 · 6月9日

SimuScene: Simulation-Ready Compositional 3D Scene Reconstruction from a Single Image

Arxiv

0+阅读 · 6月2日

REST3D: Reconstructing Physically Stable 3D Scenes from a Single Image

Arxiv

0+阅读 · 5月28日

GenRecon: Bridging Generative Priors for Multi-View 3D Scene Reconstruction

Arxiv

0+阅读 · 5月22日

RGB-only Active 3D Scene Graph Generation for Indoor Mobile Robots

Arxiv

0+阅读 · 5月18日

EgoForce: Forearm-Guided Camera-Space 3D Hand Pose from a Monocular Egocentric Camera

Arxiv

0+阅读 · 5月12日

VIP会员

文章信息

相关主题

最新内容

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

专知会员服务

1+阅读 · 今天7:13

俄乌无人机战争的六大启示

俄乌无人机战争的六大启示

专知会员服务

3+阅读 · 今天7:07

《无人机空中监控：通信实验洞察》

《无人机空中监控：通信实验洞察》

专知会员服务

2+阅读 · 今天7:05

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

专知会员服务

2+阅读 · 今天6:59

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

12+阅读 · 8月2日

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

5+阅读 · 8月2日

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

9+阅读 · 8月2日

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

11+阅读 · 8月2日

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

5+阅读 · 8月2日

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

9+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

7+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

7+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

7+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

5+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

13+阅读 · 7月31日

相关VIP内容

前馈式三维场景建模

前馈式三维场景建模

专知会员服务

13+阅读 · 4月17日

基于深度学习的草图 3D 建模研究综述

基于深度学习的草图 3D 建模研究综述

专知会员服务

8+阅读 · 3月5日

【博士论文】室内场景三维重建的基于学习的方法

【博士论文】室内场景三维重建的基于学习的方法

专知会员服务

12+阅读 · 2月16日

一种基于视觉算法生成三维场景重建的多任务系统 | 2025最新200页

一种基于视觉算法生成三维场景重建的多任务系统 | 2025最新200页

专知会员服务

26+阅读 · 2025年10月20日

【ICLR2025】基于图形引导的图像场景重建：3D高斯散射方法

【ICLR2025】基于图形引导的图像场景重建：3D高斯散射方法

专知会员服务

13+阅读 · 2025年2月25日

【图宾根大学博士论文】神经场景表示在三维重建和生成建模中的应用

【图宾根大学博士论文】神经场景表示在三维重建和生成建模中的应用

专知会员服务

40+阅读 · 2023年12月2日

【伯克利博士论文】基于神经辐射场的目标和场景重建,117页pdf

【伯克利博士论文】基于神经辐射场的目标和场景重建,117页pdf

专知会员服务

38+阅读 · 2023年5月19日

【CVPR 2022】单目3D语义场景完成框架，MonoScene: Monocular 3D Semantic Scene Completion

【CVPR 2022】单目3D语义场景完成框架，MonoScene: Monocular 3D Semantic Scene Completion

专知会员服务

16+阅读 · 2022年3月3日

场景图生成:一个全面综述

场景图生成:一个全面综述

专知会员服务

67+阅读 · 2022年1月4日

如何在交通领域构建基于图的深度学习体系结构:一个综述，How to Build a Graph-Based Deep Learning Architecture in Traffic Domain: A Survey

如何在交通领域构建基于图的深度学习体系结构:一个综述，How to Build a Graph-Based Deep Learning Architecture in Traffic Domain: A Survey

专知会员服务

51+阅读 · 2020年5月26日

热门VIP内容

开通专知VIP会员享更多权益服务

俄乌无人机战争的六大启示

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《无人机空中监控：通信实验洞察》

相关资讯

西电最新《场景图生成SGG》全面综述论文，阐述总结138项工作

西电最新《场景图生成SGG》全面综述论文，阐述总结138项工作

专知

13+阅读 · 2022年1月4日

【泡泡一分钟】用于视角可变重定位的语义地图构建

【泡泡一分钟】用于视角可变重定位的语义地图构建

泡泡机器人SLAM

19+阅读 · 2019年10月21日

【泡泡图灵智库】基于RGB-D相机多视图深度学习的一致语义建图

【泡泡图灵智库】基于RGB-D相机多视图深度学习的一致语义建图

泡泡机器人SLAM

12+阅读 · 2019年9月3日

【泡泡图灵智库】CNN-SVO 提升半直接视觉里程计的建图效果（arXiv）

【泡泡图灵智库】CNN-SVO 提升半直接视觉里程计的建图效果（arXiv）

泡泡机器人SLAM

29+阅读 · 2019年5月27日

【泡泡图灵智库】SGPN：用于3D点云实例分割的相似群建议网络（CVPR）

【泡泡图灵智库】SGPN：用于3D点云实例分割的相似群建议网络（CVPR）

泡泡机器人SLAM

15+阅读 · 2019年1月21日

【泡泡图灵智库】DynaSLAM：动态场景中的追踪、建图和修复（arXiv）

【泡泡图灵智库】DynaSLAM：动态场景中的追踪、建图和修复（arXiv）

泡泡机器人SLAM

14+阅读 · 2019年1月9日

【泡泡图灵智库】RTAB-Map : 一个大规模且长期在线的激光与视觉SLAM开源库

【泡泡图灵智库】RTAB-Map : 一个大规模且长期在线的激光与视觉SLAM开源库

泡泡机器人SLAM

34+阅读 · 2018年12月25日

【学界】李飞飞学生最新论文：利用场景图生成图像

【学界】李飞飞学生最新论文：利用场景图生成图像

GAN生成式对抗网络

15+阅读 · 2018年4月9日

【泡泡一分钟】基于多视图卷积网络的草图三维重建技术(3dv-66)

【泡泡一分钟】基于多视图卷积网络的草图三维重建技术(3dv-66)

泡泡机器人SLAM

11+阅读 · 2018年3月31日

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

AI研习社

10+阅读 · 2018年3月6日

相关论文

LentiAvatar: Pseudo-Multiview Reconstruction and Subpixel Prism Rendering for Real-Time Stereoscopic Communication

Arxiv

0+阅读 · 6月15日

JointEdit3D: Feed-Forward 3D Scene Editing in a Unified Latent Space

Arxiv

0+阅读 · 6月11日

Occupancy-Grounded Room Segmentation for Hierarchical 3D Scene Graphs

Arxiv

0+阅读 · 6月11日

LEMON-Mapping: Loop-Enhanced Large-Scale Multi-Session Point Cloud Merging and Optimization for Globally Consistent Mapping

Arxiv

0+阅读 · 6月10日

FOUND-IT: Foundation-model-first Task-driven 3D Scene Graphs with Granularity on Demand

Arxiv

0+阅读 · 6月9日

SimuScene: Simulation-Ready Compositional 3D Scene Reconstruction from a Single Image

Arxiv

0+阅读 · 6月2日

REST3D: Reconstructing Physically Stable 3D Scenes from a Single Image

Arxiv

0+阅读 · 5月28日

GenRecon: Bridging Generative Priors for Multi-View 3D Scene Reconstruction

Arxiv

0+阅读 · 5月22日

RGB-only Active 3D Scene Graph Generation for Indoor Mobile Robots

Arxiv

0+阅读 · 5月18日

EgoForce: Forearm-Guided Camera-Space 3D Hand Pose from a Monocular Egocentric Camera

Arxiv

0+阅读 · 5月12日

相关基金

基于分层与或图模型的光学遥感图像场景理解方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

动态环境下的实时高清大规模三维地形重建研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于三维激光测距的移动机器人室外环境语义地图构建

国家自然科学基金

2+阅读 · 2015年12月31日

基于结构单元探测与修复的车载LiDAR数据建筑物立面模型三维重建研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向无人机基于在线场景建模的室外目标检测与跟踪方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于线性规划感知的压缩高光谱遥感图像快速重建

国家自然科学基金

0+阅读 · 2015年12月31日

复杂环境下面向激光扫描点云的三维目标定位方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

地面激光雷达与设计数据正逆向结合的建筑物三维重建技术

国家自然科学基金

0+阅读 · 2015年12月31日

复杂场景点线光流三维重建模型的建立及鲁棒性分析

国家自然科学基金

2+阅读 · 2014年12月31日

形状先验和数据驱动的高分辨遥感影像目标提取

国家自然科学基金

3+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员