语言与几何驱动的稀疏体素表示在整体场景理解中的应用 (Language and Geometry Grounded Sparse Voxel Representations for Holistic Scene Understanding) - 专知论文

会员服务 ·

0

表示 · 场景理解 · 稀疏 · 提取 · 协同 ·

Language and Geometry Grounded Sparse Voxel Representations for Holistic Scene Understanding

翻译：语言与几何驱动的稀疏体素表示在整体场景理解中的应用

Guile Wu,David Huang,Bingbing Liu,Dongfeng Bai

from arxiv, Technical Report

Existing 3D open-vocabulary scene understanding methods mostly emphasize distilling language features from 2D foundation models into 3D feature fields, but largely overlook the synergy among scene appearance, semantics, and geometry. As a result, scene understanding often deviates from the underlying geometric structure of scenes and becomes decoupled from the reconstruction process. In this work, we propose a novel approach that leverages language and geometry grounded sparse voxel representations to comprehensively model appearance, semantics, and geometry within a unified framework. Specifically, we use 3D sparse voxels as primitives and employ an appearance field, a density field, a feature field, and a confidence field to holistically represent a 3D scene. To promote synergy among the appearance, density, and feature fields, we construct a feature modulation module and distill language features from a 2D foundation model into our 3D scene model. In addition, we integrate geometric distillation into feature field distillation to transfer geometric knowledge from a geometry foundation model to our 3D scene representations via depth correlation regularization and pattern consistency regularization. These components work together to synergistically model the appearance, semantics, and geometry of the 3D scene within a unified framework. Extensive experiments demonstrate that our approach achieves superior overall performance compared with state-of-the-art methods in holistic scene understanding and reconstruction.

翻译：现有的三维开放词汇场景理解方法大多侧重于将二维基础模型的语言特征提取到三维特征场中，但很大程度上忽视了场景外观、语义和几何之间的协同作用。因此，场景理解常常偏离场景的底层几何结构，并与重建过程脱节。在本工作中，我们提出了一种新颖的方法，利用语言和几何驱动的稀疏体素表示，在统一框架内全面建模外观、语义和几何。具体而言，我们使用三维稀疏体素作为基元，并采用外观场、密度场、特征场和置信度场来整体表示三维场景。为了促进外观场、密度场和特征场之间的协同，我们构建了一个特征调制模块，并将二维基础模型的语言特征提取到我们的三维场景模型中。此外，我们将几何提取整合到特征场提取中，通过深度相关性正则化和模式一致性正则化，将几何知识从几何基础模型转移到我们的三维场景表示中。这些组件协同工作，在统一框架内对三维场景的外观、语义和几何进行协同建模。大量实验表明，与整体场景理解和重建领域的最先进方法相比，我们的方法实现了更优的综合性能。

0

相关内容

【博士论文】室内场景三维重建的基于学习的方法

【博士论文】室内场景三维重建的基于学习的方法

专知会员服务

11+阅读 · 2月16日

【CMU博士论文】语言建模中数据-训练-推理交互的数学基础

【CMU博士论文】语言建模中数据-训练-推理交互的数学基础

专知会员服务

23+阅读 · 1月26日

三维场景生成：综述

三维场景生成：综述

专知会员服务

21+阅读 · 2025年5月9日

视觉-语言模型在物体检测与分割中的应用：综述与评估

视觉-语言模型在物体检测与分割中的应用：综述与评估

专知会员服务

25+阅读 · 2025年4月28日

如何赋予大型语言模型三维能力？—大型语言模型中的空间推理综述

如何赋予大型语言模型三维能力？—大型语言模型中的空间推理综述

专知会员服务

22+阅读 · 2025年4月10日

【ETHZ博士论文】面向场景理解的实用领域适应研究，153页pdf

【ETHZ博士论文】面向场景理解的实用领域适应研究，153页pdf

专知会员服务

38+阅读 · 2024年4月12日

【ETHZ博士论文】神经场景表示用于三维重建和场景理解

【ETHZ博士论文】神经场景表示用于三维重建和场景理解

专知会员服务

37+阅读 · 2024年3月15日

LLM in Medical Domain: 大语言模型在医学领域的应用

LLM in Medical Domain: 大语言模型在医学领域的应用

专知会员服务

103+阅读 · 2023年6月17日

【牛津大学博士论文】学习用几何和语义表示场景，149页pdf

【牛津大学博士论文】学习用几何和语义表示场景，149页pdf

专知会员服务

63+阅读 · 2022年11月27日

【斯坦福大学】场景图谱表示在计算机视觉中的应用，41页ppt

【斯坦福大学】场景图谱表示在计算机视觉中的应用，41页ppt

专知会员服务

52+阅读 · 2020年1月8日

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

专知

27+阅读 · 2020年7月26日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

清华大学刘知远《知识指导的自然语言处理》，附55页PPT下载

清华大学刘知远《知识指导的自然语言处理》，附55页PPT下载

专知

36+阅读 · 2019年7月7日

超详细干货 | 三维语义分割概述及总结

超详细干货 | 三维语义分割概述及总结

计算机视觉life

33+阅读 · 2019年3月19日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

计算机视觉life

19+阅读 · 2018年12月27日

深度上下文词向量

深度上下文词向量

微信AI

27+阅读 · 2018年9月13日

图像和文本的融合表示学习——Text2Image和Image2Text

图像和文本的融合表示学习——Text2Image和Image2Text

专知

125+阅读 · 2018年6月11日

白翔：趣谈“捕文捉字”-- 场景文字检测 | VALSE2017之十

白翔：趣谈“捕文捉字”-- 场景文字检测 | VALSE2017之十

深度学习大讲堂

19+阅读 · 2017年9月4日

语料库构建——自然语言理解的基础

语料库构建——自然语言理解的基础

计算机研究与发展

11+阅读 · 2017年8月21日

面向特征提取的低秩与稀疏图嵌入理论与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

“自然语言-草图”耦合的地理场景查询方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于渐进结构化学习的高维信息稀疏表示理论与技术

国家自然科学基金

0+阅读 · 2015年12月31日

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

基于草图的几何处理和应用

国家自然科学基金

2+阅读 · 2015年12月31日

中文句子语义概念图自动构建方法及应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于关系语义的空间场景信息理解

国家自然科学基金

5+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

OGScene3D: Incremental Open-Vocabulary 3D Gaussian Scene Graph Mapping for Scene Understanding

Arxiv

0+阅读 · 3月17日

4D Synchronized Fields: Motion-Language Gaussian Splatting for Temporal Scene Understanding

Arxiv

0+阅读 · 3月15日

SceneAssistant: A Visual Feedback Agent for Open-Vocabulary 3D Scene Generation

Arxiv

0+阅读 · 3月12日

Boosting MLLM Spatial Reasoning with Geometrically Referenced 3D Scene Representations

Arxiv

0+阅读 · 3月9日

SceneEval: Evaluating Semantic Coherence in Text-Conditioned 3D Indoor Scene Synthesis

Arxiv

0+阅读 · 3月7日

GeoPurify: A Data-Efficient Geometric Distillation Framework for Open-Vocabulary 3D Segmentation

Arxiv

0+阅读 · 2月11日

Multi-Resolution Alignment for Voxel Sparsity in Camera-Based 3D Semantic Scene Completion

Arxiv

0+阅读 · 2月3日

Relationship-Aware Hierarchical 3D Scene Graph for Task Reasoning

Arxiv

0+阅读 · 2月2日

Object-Centric Representation Learning for Enhanced 3D Scene Graph Prediction

Arxiv

0+阅读 · 2月2日

Open-Vocabulary Functional 3D Human-Scene Interaction Generation

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

（中文长文）城市战与小部队城市战术：来自俄乌战争的观察

（中文长文）城市战与小部队城市战术：来自俄乌战争的观察

专知会员服务

0+阅读 · 26分钟前

未来的海战无人自主系统

未来的海战无人自主系统

专知会员服务

0+阅读 · 34分钟前

美军多域作战现状分析：战略、概念还是幻想？

美军多域作战现状分析：战略、概念还是幻想？

专知会员服务

0+阅读 · 47分钟前

（中文万字长文）美智库：针对伊朗的防空作战分析（报告）

（中文万字长文）美智库：针对伊朗的防空作战分析（报告）

专知会员服务

11+阅读 · 今天7:12

无人机与反无人机系统（书籍）

无人机与反无人机系统（书籍）

专知会员服务

12+阅读 · 今天6:45

（中文万字长文）2025-2026年乌克兰无人机拦截技术演进：反无人机技术、项目、效果、西方援助

（中文万字长文）2025-2026年乌克兰无人机拦截技术演进：反无人机技术、项目、效果、西方援助

专知会员服务

6+阅读 · 今天6:12

美陆军2026条令：安全与机动支援

美陆军2026条令：安全与机动支援

专知会员服务

3+阅读 · 今天5:49

【牛津博士论文】以语言为接口的医学影像表示学习

【牛津博士论文】以语言为接口的医学影像表示学习

专知会员服务

10+阅读 · 4月13日

基于大语言模型的医疗推理研究：综述与 MR-Bench 基准测试

基于大语言模型的医疗推理研究：综述与 MR-Bench 基准测试

专知会员服务

9+阅读 · 4月13日

从原型到实战：扩展美陆军下一代指挥控制能力（试验进展）

从原型到实战：扩展美陆军下一代指挥控制能力（试验进展）

专知会员服务

12+阅读 · 4月13日

技术、多域威慑与海上战争（报告）

技术、多域威慑与海上战争（报告）

专知会员服务

8+阅读 · 4月13日

随机网络效用最大化在战略排队系统中的博弈论方法

随机网络效用最大化在战略排队系统中的博弈论方法

专知会员服务

5+阅读 · 4月13日

“在云端防御”：提升北约数据韧性（报告）

“在云端防御”：提升北约数据韧性（报告）

专知会员服务

5+阅读 · 4月13日

从炒作到现实：人工智能在军事应用中的实战经验与建议（综述）

从炒作到现实：人工智能在军事应用中的实战经验与建议（综述）

专知会员服务

12+阅读 · 4月13日

2026年伊朗战争对美国通胀的影响：情景分析（报告）

2026年伊朗战争对美国通胀的影响：情景分析（报告）

专知会员服务

3+阅读 · 4月13日

相关VIP内容

【博士论文】室内场景三维重建的基于学习的方法

【博士论文】室内场景三维重建的基于学习的方法

专知会员服务

11+阅读 · 2月16日

【CMU博士论文】语言建模中数据-训练-推理交互的数学基础

【CMU博士论文】语言建模中数据-训练-推理交互的数学基础

专知会员服务

23+阅读 · 1月26日

三维场景生成：综述

三维场景生成：综述

专知会员服务

21+阅读 · 2025年5月9日

视觉-语言模型在物体检测与分割中的应用：综述与评估

视觉-语言模型在物体检测与分割中的应用：综述与评估

专知会员服务

25+阅读 · 2025年4月28日

如何赋予大型语言模型三维能力？—大型语言模型中的空间推理综述

如何赋予大型语言模型三维能力？—大型语言模型中的空间推理综述

专知会员服务

22+阅读 · 2025年4月10日

【ETHZ博士论文】面向场景理解的实用领域适应研究，153页pdf

【ETHZ博士论文】面向场景理解的实用领域适应研究，153页pdf

专知会员服务

38+阅读 · 2024年4月12日

【ETHZ博士论文】神经场景表示用于三维重建和场景理解

【ETHZ博士论文】神经场景表示用于三维重建和场景理解

专知会员服务

37+阅读 · 2024年3月15日

LLM in Medical Domain: 大语言模型在医学领域的应用

LLM in Medical Domain: 大语言模型在医学领域的应用

专知会员服务

103+阅读 · 2023年6月17日

【牛津大学博士论文】学习用几何和语义表示场景，149页pdf

【牛津大学博士论文】学习用几何和语义表示场景，149页pdf

专知会员服务

63+阅读 · 2022年11月27日

【斯坦福大学】场景图谱表示在计算机视觉中的应用，41页ppt

【斯坦福大学】场景图谱表示在计算机视觉中的应用，41页ppt

专知会员服务

52+阅读 · 2020年1月8日

热门VIP内容

开通专知VIP会员享更多权益服务

未来的海战无人自主系统

（中文万字长文）美智库：针对伊朗的防空作战分析（报告）

（中文长文）城市战与小部队城市战术：来自俄乌战争的观察

美军多域作战现状分析：战略、概念还是幻想？

相关资讯

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

专知

27+阅读 · 2020年7月26日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

清华大学刘知远《知识指导的自然语言处理》，附55页PPT下载

清华大学刘知远《知识指导的自然语言处理》，附55页PPT下载

专知

36+阅读 · 2019年7月7日

超详细干货 | 三维语义分割概述及总结

超详细干货 | 三维语义分割概述及总结

计算机视觉life

33+阅读 · 2019年3月19日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

计算机视觉life

19+阅读 · 2018年12月27日

深度上下文词向量

深度上下文词向量

微信AI

27+阅读 · 2018年9月13日

图像和文本的融合表示学习——Text2Image和Image2Text

图像和文本的融合表示学习——Text2Image和Image2Text

专知

125+阅读 · 2018年6月11日

白翔：趣谈“捕文捉字”-- 场景文字检测 | VALSE2017之十

白翔：趣谈“捕文捉字”-- 场景文字检测 | VALSE2017之十

深度学习大讲堂

19+阅读 · 2017年9月4日

语料库构建——自然语言理解的基础

语料库构建——自然语言理解的基础

计算机研究与发展

11+阅读 · 2017年8月21日

相关论文

OGScene3D: Incremental Open-Vocabulary 3D Gaussian Scene Graph Mapping for Scene Understanding

Arxiv

0+阅读 · 3月17日

4D Synchronized Fields: Motion-Language Gaussian Splatting for Temporal Scene Understanding

Arxiv

0+阅读 · 3月15日

SceneAssistant: A Visual Feedback Agent for Open-Vocabulary 3D Scene Generation

Arxiv

0+阅读 · 3月12日

Boosting MLLM Spatial Reasoning with Geometrically Referenced 3D Scene Representations

Arxiv

0+阅读 · 3月9日

SceneEval: Evaluating Semantic Coherence in Text-Conditioned 3D Indoor Scene Synthesis

Arxiv

0+阅读 · 3月7日

GeoPurify: A Data-Efficient Geometric Distillation Framework for Open-Vocabulary 3D Segmentation

Arxiv

0+阅读 · 2月11日

Multi-Resolution Alignment for Voxel Sparsity in Camera-Based 3D Semantic Scene Completion

Arxiv

0+阅读 · 2月3日

Relationship-Aware Hierarchical 3D Scene Graph for Task Reasoning

Arxiv

0+阅读 · 2月2日

Object-Centric Representation Learning for Enhanced 3D Scene Graph Prediction

Arxiv

0+阅读 · 2月2日

Open-Vocabulary Functional 3D Human-Scene Interaction Generation

Arxiv

0+阅读 · 1月30日

相关基金

面向特征提取的低秩与稀疏图嵌入理论与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

“自然语言-草图”耦合的地理场景查询方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于渐进结构化学习的高维信息稀疏表示理论与技术

国家自然科学基金

0+阅读 · 2015年12月31日

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

基于草图的几何处理和应用

国家自然科学基金

2+阅读 · 2015年12月31日

中文句子语义概念图自动构建方法及应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于关系语义的空间场景信息理解

国家自然科学基金

5+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员