vS-Graphs: Tightly Coupling Visual SLAM and 3D Scene Graphs Exploiting Hierarchical Scene Understanding - 专知论文

会员服务 ·

0

场景图 · 精度 · 三维场景 · 场景理解 · 耦合 ·

vS-Graphs: Tightly Coupling Visual SLAM and 3D Scene Graphs Exploiting Hierarchical Scene Understanding

翻译：vS-Graphs：紧密耦合视觉SLAM与三维场景图，利用层次化场景理解

Ali Tourani,Saad Ejaz,Hriday Bavle,Miguel Fernandez-Cortizas,David Morilla-Cabello,Jose Luis Sanchez-Lopez,Holger Voos

from arxiv, 20 pages, 10 figures, 5 tables

Current Visual Simultaneous Localization and Mapping (VSLAM) systems often struggle to create maps that are both semantically rich and easily interpretable. While incorporating semantic scene knowledge aids in building richer maps with contextual associations among mapped objects, representing them in structured formats, such as scene graphs, has not been widely addressed, resulting in complex map comprehension and limited scalability. This paper introduces vS-Graphs, a novel real-time VSLAM framework that integrates vision-based scene understanding with map reconstruction and comprehensible graph-based representation. The framework infers structural elements (i.e., rooms and floors) from detected building components (i.e., walls and ground surfaces) and incorporates them into optimizable 3D scene graphs. This solution enhances the reconstructed map's semantic richness, comprehensibility, and localization accuracy. Extensive experiments on standard benchmarks and real-world datasets demonstrate that vS-Graphs achieves an average of 15.22% accuracy gain across all tested datasets compared to state-of-the-art VSLAM methods. Furthermore, the proposed framework achieves environment-driven semantic entity detection accuracy comparable to that of precise LiDAR-based frameworks, using only visual features. The code is publicly available at https://github.com/snt-arg/visual_sgraphs and is actively being improved. Moreover, a web page containing more media and evaluation outcomes is available on https://snt-arg.github.io/vsgraphs-results/.

翻译：当前的视觉同时定位与地图构建（VSLAM）系统通常难以创建既语义丰富又易于理解的地图。虽然融入语义场景知识有助于构建具有地图对象间上下文关联的更丰富地图，但以结构化格式（如场景图）表示这些信息尚未得到广泛解决，导致地图理解复杂且可扩展性有限。本文提出vS-Graphs，一种新颖的实时VSLAM框架，它将基于视觉的场景理解与地图重建及可理解的基于图的表示相结合。该框架从检测到的建筑组件（即墙壁和地面）推断结构元素（即房间和楼层），并将其纳入可优化的三维场景图中。该方案增强了重建地图的语义丰富性、可理解性以及定位精度。在标准基准和真实世界数据集上的大量实验表明，与最先进的VSLAM方法相比，vS-Graphs在所有测试数据集上平均实现了15.22%的精度提升。此外，所提出的框架仅使用视觉特征，就实现了与基于精确激光雷达的框架相当的环境驱动语义实体检测精度。代码公开于https://github.com/snt-arg/visual_sgraphs，并正在积极改进中。此外，包含更多媒体和评估结果的网页可在https://snt-arg.github.io/vsgraphs-results/上获取。

0

相关内容

场景图

迈向下一代 SLAM：基于 3DGS 的 SLAM 技术综述——聚焦性能、鲁棒性及未来方向

迈向下一代 SLAM：基于 3DGS 的 SLAM 技术综述——聚焦性能、鲁棒性及未来方向

专知会员服务

13+阅读 · 2月8日

【新书】SLAM手册从定位与建图到空间智能，194页pdf

【新书】SLAM手册从定位与建图到空间智能，194页pdf

专知会员服务

61+阅读 · 2024年11月16日

【MIT博士论文】低动态环境中的长期基于对象SLAM，160页pdf

【MIT博士论文】低动态环境中的长期基于对象SLAM，160页pdf

专知会员服务

27+阅读 · 2024年3月19日

浙大刘勇教授团队发表综述文章：多源融合SLAM的现状与挑战

浙大刘勇教授团队发表综述文章：多源融合SLAM的现状与挑战

专知会员服务

43+阅读 · 2022年4月7日

【图与几何深度学习】Graph and geometric deep learning，49页ppt

【图与几何深度学习】Graph and geometric deep learning，49页ppt

专知会员服务

65+阅读 · 2021年4月24日

【CVPR2020】视觉导航的神经拓扑SLAM，56页ppt，Neural Topological SLAM for Visual Navigation

【CVPR2020】视觉导航的神经拓扑SLAM，56页ppt，Neural Topological SLAM for Visual Navigation

专知会员服务

14+阅读 · 2020年6月18日

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

专知会员服务

52+阅读 · 2020年5月26日

【东京大学】图采样，Sampling on Graphs: From Theory to Applications

【东京大学】图采样，Sampling on Graphs: From Theory to Applications

专知会员服务

19+阅读 · 2020年3月10日

【斯坦福大学】场景图谱表示在计算机视觉中的应用，41页ppt

【斯坦福大学】场景图谱表示在计算机视觉中的应用，41页ppt

专知会员服务

52+阅读 · 2020年1月8日

Deep Learning for Graphs: Models and Applications，密歇根州立大学唐继良助理教授，CIPS ATT 16（2019）

Deep Learning for Graphs: Models and Applications，密歇根州立大学唐继良助理教授，CIPS ATT 16（2019）

专知会员服务

54+阅读 · 2019年10月25日

综述 | 激光与视觉融合SLAM

综述 | 激光与视觉融合SLAM

计算机视觉life

18+阅读 · 2020年10月8日

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

专知

27+阅读 · 2020年7月26日

55页图深度学习导论《A Gentle Introduction to Deep Learning for Graphs》

55页图深度学习导论《A Gentle Introduction to Deep Learning for Graphs》

专知

16+阅读 · 2020年1月3日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

如何从零开始系统化学习视觉SLAM？

如何从零开始系统化学习视觉SLAM？

计算机视觉life

21+阅读 · 2019年4月13日

从零开始一起学习SLAM | SLAM有什么用？

从零开始一起学习SLAM | SLAM有什么用？

计算机视觉life

18+阅读 · 2018年9月17日

图像和文本的融合表示学习——Text2Image和Image2Text

图像和文本的融合表示学习——Text2Image和Image2Text

专知

125+阅读 · 2018年6月11日

【学界】李飞飞学生最新论文：利用场景图生成图像

【学界】李飞飞学生最新论文：利用场景图生成图像

GAN生成式对抗网络

15+阅读 · 2018年4月9日

Maplab：研究视觉惯性建图和定位的开源框架

Maplab：研究视觉惯性建图和定位的开源框架

泡泡机器人SLAM

16+阅读 · 2018年4月4日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

张量框架下高维遥感影像空-谱协同解译方法研究

国家自然科学基金

1+阅读 · 2016年12月31日

基于分层与或图模型的光学遥感图像场景理解方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

“自然语言-草图”耦合的地理场景查询方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向地图综合的多尺度空间聚类理论与方法

国家自然科学基金

1+阅读 · 2014年12月31日

基于多视图协同训练的高光谱遥感影像分类

国家自然科学基金

3+阅读 · 2014年12月31日

解决地图要素空间冲突的智能化协同模型和算法

国家自然科学基金

6+阅读 · 2014年12月31日

高维时空场数据的层次张量建模与分析方法

国家自然科学基金

2+阅读 · 2014年12月31日

基于视觉注意与眼动跟踪的地图认知计算模型与方法研究

国家自然科学基金

6+阅读 · 2014年12月31日

DynoSLAM: Dynamic SLAM with Generative Graph Neural Networks for Real-World Social Navigation

DynoSLAM: Dynamic SLAM with Generative Graph Neural Networks for Real-World Social Navigation

Arxiv

0+阅读 · 5月4日

CasLayout: Cascaded 3D Layout Diffusion for Indoor Scene Synthesis with Implicit Relation Modeling

Arxiv

0+阅读 · 4月30日

PILOT: One Physics-Integrated Generation Framework to Unify 2D and 3D Radio Map Construction

Arxiv

0+阅读 · 4月26日

View-Consistent 3D Scene Editing via Dual-Path Structural Correspondense and Semantic Continuity

Arxiv

0+阅读 · 4月24日

LMMs Meet Object-Centric Vision: Understanding, Segmentation, Editing and Generation

Arxiv

0+阅读 · 4月13日

Pandora: Articulated 3D Scene Graphs from Egocentric Vision

Arxiv

0+阅读 · 3月30日

KeySG: Hierarchical Keyframe-Based 3D Scene Graphs

Arxiv

0+阅读 · 3月23日

M^3: Dense Matching Meets Multi-View Foundation Models for Monocular Gaussian Splatting SLAM

Arxiv

0+阅读 · 3月17日

OGScene3D: Incremental Open-Vocabulary 3D Gaussian Scene Graph Mapping for Scene Understanding

Arxiv

0+阅读 · 3月17日

TurboMap: GPU-Accelerated Local Mapping for Visual SLAM

Arxiv

0+阅读 · 3月16日

VIP会员

文章信息

相关主题

最新内容

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

3+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

3+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

4+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

4+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

10+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

6+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

7+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

8+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

11+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

6+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

6+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

8+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

6+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

6+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

9+阅读 · 5月29日

相关VIP内容

迈向下一代 SLAM：基于 3DGS 的 SLAM 技术综述——聚焦性能、鲁棒性及未来方向

迈向下一代 SLAM：基于 3DGS 的 SLAM 技术综述——聚焦性能、鲁棒性及未来方向

专知会员服务

13+阅读 · 2月8日

【新书】SLAM手册从定位与建图到空间智能，194页pdf

【新书】SLAM手册从定位与建图到空间智能，194页pdf

专知会员服务

61+阅读 · 2024年11月16日

【MIT博士论文】低动态环境中的长期基于对象SLAM，160页pdf

【MIT博士论文】低动态环境中的长期基于对象SLAM，160页pdf

专知会员服务

27+阅读 · 2024年3月19日

浙大刘勇教授团队发表综述文章：多源融合SLAM的现状与挑战

浙大刘勇教授团队发表综述文章：多源融合SLAM的现状与挑战

专知会员服务

43+阅读 · 2022年4月7日

【图与几何深度学习】Graph and geometric deep learning，49页ppt

【图与几何深度学习】Graph and geometric deep learning，49页ppt

专知会员服务

65+阅读 · 2021年4月24日

【CVPR2020】视觉导航的神经拓扑SLAM，56页ppt，Neural Topological SLAM for Visual Navigation

【CVPR2020】视觉导航的神经拓扑SLAM，56页ppt，Neural Topological SLAM for Visual Navigation

专知会员服务

14+阅读 · 2020年6月18日

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

专知会员服务

52+阅读 · 2020年5月26日

【东京大学】图采样，Sampling on Graphs: From Theory to Applications

【东京大学】图采样，Sampling on Graphs: From Theory to Applications

专知会员服务

19+阅读 · 2020年3月10日

【斯坦福大学】场景图谱表示在计算机视觉中的应用，41页ppt

【斯坦福大学】场景图谱表示在计算机视觉中的应用，41页ppt

专知会员服务

52+阅读 · 2020年1月8日

Deep Learning for Graphs: Models and Applications，密歇根州立大学唐继良助理教授，CIPS ATT 16（2019）

Deep Learning for Graphs: Models and Applications，密歇根州立大学唐继良助理教授，CIPS ATT 16（2019）

专知会员服务

54+阅读 · 2019年10月25日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

美以伊战争：首次人工智能战争——军事自主性困境

BES：让语言模型通过双向进化搜索自我改进

以色列-美国-伊朗战争中的无人机：关键要点

相关资讯

综述 | 激光与视觉融合SLAM

综述 | 激光与视觉融合SLAM

计算机视觉life

18+阅读 · 2020年10月8日

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

专知

27+阅读 · 2020年7月26日

55页图深度学习导论《A Gentle Introduction to Deep Learning for Graphs》

55页图深度学习导论《A Gentle Introduction to Deep Learning for Graphs》

专知

16+阅读 · 2020年1月3日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

如何从零开始系统化学习视觉SLAM？

如何从零开始系统化学习视觉SLAM？

计算机视觉life

21+阅读 · 2019年4月13日

从零开始一起学习SLAM | SLAM有什么用？

从零开始一起学习SLAM | SLAM有什么用？

计算机视觉life

18+阅读 · 2018年9月17日

图像和文本的融合表示学习——Text2Image和Image2Text

图像和文本的融合表示学习——Text2Image和Image2Text

专知

125+阅读 · 2018年6月11日

【学界】李飞飞学生最新论文：利用场景图生成图像

【学界】李飞飞学生最新论文：利用场景图生成图像

GAN生成式对抗网络

15+阅读 · 2018年4月9日

Maplab：研究视觉惯性建图和定位的开源框架

Maplab：研究视觉惯性建图和定位的开源框架

泡泡机器人SLAM

16+阅读 · 2018年4月4日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

相关论文

DynoSLAM: Dynamic SLAM with Generative Graph Neural Networks for Real-World Social Navigation

DynoSLAM: Dynamic SLAM with Generative Graph Neural Networks for Real-World Social Navigation

Arxiv

0+阅读 · 5月4日

CasLayout: Cascaded 3D Layout Diffusion for Indoor Scene Synthesis with Implicit Relation Modeling

Arxiv

0+阅读 · 4月30日

PILOT: One Physics-Integrated Generation Framework to Unify 2D and 3D Radio Map Construction

Arxiv

0+阅读 · 4月26日

View-Consistent 3D Scene Editing via Dual-Path Structural Correspondense and Semantic Continuity

Arxiv

0+阅读 · 4月24日

LMMs Meet Object-Centric Vision: Understanding, Segmentation, Editing and Generation

Arxiv

0+阅读 · 4月13日

Pandora: Articulated 3D Scene Graphs from Egocentric Vision

Arxiv

0+阅读 · 3月30日

KeySG: Hierarchical Keyframe-Based 3D Scene Graphs

Arxiv

0+阅读 · 3月23日

M^3: Dense Matching Meets Multi-View Foundation Models for Monocular Gaussian Splatting SLAM

Arxiv

0+阅读 · 3月17日

OGScene3D: Incremental Open-Vocabulary 3D Gaussian Scene Graph Mapping for Scene Understanding

Arxiv

0+阅读 · 3月17日

TurboMap: GPU-Accelerated Local Mapping for Visual SLAM

Arxiv

0+阅读 · 3月16日

相关基金

张量框架下高维遥感影像空-谱协同解译方法研究

国家自然科学基金

1+阅读 · 2016年12月31日

基于分层与或图模型的光学遥感图像场景理解方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

“自然语言-草图”耦合的地理场景查询方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向地图综合的多尺度空间聚类理论与方法

国家自然科学基金

1+阅读 · 2014年12月31日

基于多视图协同训练的高光谱遥感影像分类

国家自然科学基金

3+阅读 · 2014年12月31日

解决地图要素空间冲突的智能化协同模型和算法

国家自然科学基金

6+阅读 · 2014年12月31日

高维时空场数据的层次张量建模与分析方法

国家自然科学基金

2+阅读 · 2014年12月31日

基于视觉注意与眼动跟踪的地图认知计算模型与方法研究

国家自然科学基金

6+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员