GaussExplorer：基于3D高斯泼溅的具身探索与推理框架 (GaussExplorer: 3D Gaussian Splatting for Embodied Exploration and Reasoning) - 专知论文

会员服务 ·

0

3D · 嵌入 · 文本查询 · RGB-D · 结构 ·

GaussExplorer: 3D Gaussian Splatting for Embodied Exploration and Reasoning

翻译：GaussExplorer：基于3D高斯泼溅的具身探索与推理框架

Kim Yu-Ji,Dahye Lee,Kim Jun-Seong,GeonU Kim,Nam Hyeon-Woo,Yongjin Kwon,Yu-Chiang Frank Wang,Jaesung Choe,Tae-Hyun Oh

from arxiv, Project page: https://gaussexplorer.github.io/

We present GaussExplorer, a framework for embodied exploration and reasoning built on 3D Gaussian Splatting (3DGS). While prior approaches to language-embedded 3DGS have made meaningful progress in aligning simple text queries with Gaussian embeddings, they are generally optimized for relatively simple queries and struggle to interpret more complex, compositional language queries. Alternative studies based on object-centric RGB-D structured memories provide spatial grounding but are constrained by pre-fixed viewpoints. To address these issues, GaussExplorer introduces Vision-Language Models (VLMs) on top of 3DGS to enable question-driven exploration and reasoning within 3D scenes. We first identify pre-captured images that are most correlated with the query question, and subsequently adjust them into novel viewpoints to more accurately capture visual information for better reasoning by VLMs. Experiments show that ours outperforms existing methods on several benchmarks, demonstrating the effectiveness of integrating VLM-based reasoning with 3DGS for embodied tasks.

翻译：本文提出GaussExplorer，一个基于3D高斯泼溅（3DGS）的具身探索与推理框架。尽管先前面向语言嵌入3DGS的研究在将简单文本查询与高斯嵌入对齐方面取得了有意义进展，但这些方法通常针对相对简单的查询进行优化，难以解析更复杂的组合式语言查询。另一类基于以物体为中心的RGB-D结构化记忆的研究虽能提供空间基础，但受限于预设的固定视角。为解决这些问题，GaussExplorer在3DGS基础上引入视觉语言模型（VLMs），以实现三维场景中基于问题驱动的探索与推理。我们首先识别与查询问题最相关的预采集图像，随后将其调整至新视角，以更准确地捕捉视觉信息，从而提升VLMs的推理能力。实验表明，本方法在多个基准测试中优于现有方法，验证了将基于VLM的推理与3DGS相结合在具身任务中的有效性。

0

相关内容

3D是英文“Three Dimensions”的简称，中文是指三维、三个维度、三个坐标，即有长、有宽、有高，换句话说，就是立体的，是相对于只有长和宽的平面（2D）而言。

迈向下一代 SLAM：基于 3DGS 的 SLAM 技术综述——聚焦性能、鲁棒性及未来方向

迈向下一代 SLAM：基于 3DGS 的 SLAM 技术综述——聚焦性能、鲁棒性及未来方向

专知会员服务

10+阅读 · 2月8日

三维高斯泼溅应用综述：分割、编辑与生成

三维高斯泼溅应用综述：分割、编辑与生成

专知会员服务

15+阅读 · 2025年8月14日

【ICML2025】解决3D语言高斯溅射中的视角依赖语义

【ICML2025】解决3D语言高斯溅射中的视角依赖语义

专知会员服务

8+阅读 · 2025年6月2日

【CVPR2025】DropGaussian: 稀视角高斯溅射的结构正则化

【CVPR2025】DropGaussian: 稀视角高斯溅射的结构正则化

专知会员服务

9+阅读 · 2025年4月2日

【CVPR2025】4D LangSplat：基于多模态大语言模型的4D语言高斯溅射

【CVPR2025】4D LangSplat：基于多模态大语言模型的4D语言高斯溅射

专知会员服务

13+阅读 · 2025年3月16日

【AAAI2025】FatesGS：基于深度特征一致性的高斯溅射法进行快速精确的稀疏视角表面重建

【AAAI2025】FatesGS：基于深度特征一致性的高斯溅射法进行快速精确的稀疏视角表面重建

专知会员服务

10+阅读 · 2025年1月9日

机器人中的三维高斯溅射：综述

机器人中的三维高斯溅射：综述

专知会员服务

28+阅读 · 2024年10月17日

什么是3D高斯喷溅(Gaussian Splatting，GS)技术？复旦等最新《3D高斯作为新视觉时代》综述，详述3DGS技术

什么是3D高斯喷溅(Gaussian Splatting，GS)技术？复旦等最新《3D高斯作为新视觉时代》综述，详述3DGS技术

专知会员服务

43+阅读 · 2024年2月18日

斯坦福大学Jure团队提出《大规模可扩展知识图谱多跳推理框架SMORE》，实现单机运行8千万实体3亿级知识图谱推理

斯坦福大学Jure团队提出《大规模可扩展知识图谱多跳推理框架SMORE》，实现单机运行8千万实体3亿级知识图谱推理

专知会员服务

58+阅读 · 2021年11月3日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

风靡全球的GANs：一文看尽这“混世魔王”的“三生三世”

风靡全球的GANs：一文看尽这“混世魔王”的“三生三世”

新智元

11+阅读 · 2020年1月3日

何恺明团队开源3D目标检测新框架VoteNet：模型更简单、效率更高

何恺明团队开源3D目标检测新框架VoteNet：模型更简单、效率更高

AI前线

15+阅读 · 2019年9月1日

赛尔原创 | AAAI 2019 Gaussian Transformer: 一种自然语言推理的轻量方法

赛尔原创 | AAAI 2019 Gaussian Transformer: 一种自然语言推理的轻量方法

哈工大SCIR

13+阅读 · 2019年5月6日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

AI科技评论

10+阅读 · 2019年3月2日

揭开GANs的神秘面纱

揭开GANs的神秘面纱

机器学习算法与Python学习

10+阅读 · 2019年2月27日

【学界】GANs最新综述论文: 生成式对抗网络及其变种如何有用

【学界】GANs最新综述论文: 生成式对抗网络及其变种如何有用

GAN生成式对抗网络

30+阅读 · 2019年1月5日

GANs最新综述论文: 生成式对抗网络及其变种如何有用【附41页pdf下载】

GANs最新综述论文: 生成式对抗网络及其变种如何有用【附41页pdf下载】

专知

61+阅读 · 2019年1月5日

每日论文 | 深度卷积高斯过程；用多任务弱监督训练复杂模型；在时序数据中发现新连接类型

每日论文 | 深度卷积高斯过程；用多任务弱监督训练复杂模型；在时序数据中发现新连接类型

论智

12+阅读 · 2018年10月10日

【论文推荐】最新九篇自动问答相关论文—可解释推理网络、上下文知识图谱嵌入、注意力RNN、Multi-Cast注意力网络

【论文推荐】最新九篇自动问答相关论文—可解释推理网络、上下文知识图谱嵌入、注意力RNN、Multi-Cast注意力网络

专知

15+阅读 · 2018年6月29日

面向海量高维数据的可深度结合的贝叶斯网学习与推理新方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

模拟人眼视觉特性的高性能矢量多边形叠加分析算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

用于2D/3D切换显示的可调液体柱透镜阵列研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

14+阅读 · 2015年12月31日

基于高维流形计算的混沌密码攻击方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

若干类ABSDEs以及其他类型BSDEs的研究

国家自然科学基金

0+阅读 · 2015年12月31日

高斯序列与过程的极值理论

国家自然科学基金

2+阅读 · 2015年12月31日

基于臭氧技术的Ge基高介电常数栅介质MOS器件的基础研究：界面特性、栅电荷分布及起源、迁移率散射机制

国家自然科学基金

0+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

Faster-GS: Analyzing and Improving Gaussian Splatting Optimization

Arxiv

0+阅读 · 2月10日

GaussianPOP: Principled Simplification Framework for Compact 3D Gaussian Splatting via Error Quantification

Arxiv

0+阅读 · 2月6日

Efficient Scene Modeling via Structure-Aware and Region-Prioritized 3D Gaussians

Arxiv

0+阅读 · 2月5日

Nix and Fix: Targeting 1000x Compression of 3D Gaussian Splatting with Diffusion Models

Arxiv

0+阅读 · 2月4日

Split&Splat: Zero-Shot Panoptic Segmentation via Explicit Instance Modeling and 3D Gaussian Splatting

Arxiv

0+阅读 · 2月1日

TIGaussian: Disentangle Gaussians for Spatial-Awared Text-Image-3D Alignment

Arxiv

0+阅读 · 1月27日

UniMGS: Unifying Mesh and 3D Gaussian Splatting with Single-Pass Rasterization and Proxy-Based Deformation

Arxiv

0+阅读 · 1月27日

SceneSplat++: A Large Dataset and Comprehensive Benchmark for Language Gaussian Splatting

Arxiv

0+阅读 · 1月25日

LL-GaussianImage: Efficient Image Representation for Zero-shot Low-Light Enhancement with 2D Gaussian Splatting

Arxiv

0+阅读 · 1月22日

GaussianFluent: Gaussian Simulation for Dynamic Scenes with Mixed Materials

Arxiv

0+阅读 · 1月14日

VIP会员

文章信息

相关主题

相关VIP内容

迈向下一代 SLAM：基于 3DGS 的 SLAM 技术综述——聚焦性能、鲁棒性及未来方向

迈向下一代 SLAM：基于 3DGS 的 SLAM 技术综述——聚焦性能、鲁棒性及未来方向

专知会员服务

10+阅读 · 2月8日

三维高斯泼溅应用综述：分割、编辑与生成

三维高斯泼溅应用综述：分割、编辑与生成

专知会员服务

15+阅读 · 2025年8月14日

【ICML2025】解决3D语言高斯溅射中的视角依赖语义

【ICML2025】解决3D语言高斯溅射中的视角依赖语义

专知会员服务

8+阅读 · 2025年6月2日

【CVPR2025】DropGaussian: 稀视角高斯溅射的结构正则化

【CVPR2025】DropGaussian: 稀视角高斯溅射的结构正则化

专知会员服务

9+阅读 · 2025年4月2日

【CVPR2025】4D LangSplat：基于多模态大语言模型的4D语言高斯溅射

【CVPR2025】4D LangSplat：基于多模态大语言模型的4D语言高斯溅射

专知会员服务

13+阅读 · 2025年3月16日

【AAAI2025】FatesGS：基于深度特征一致性的高斯溅射法进行快速精确的稀疏视角表面重建

【AAAI2025】FatesGS：基于深度特征一致性的高斯溅射法进行快速精确的稀疏视角表面重建

专知会员服务

10+阅读 · 2025年1月9日

机器人中的三维高斯溅射：综述

机器人中的三维高斯溅射：综述

专知会员服务

28+阅读 · 2024年10月17日

什么是3D高斯喷溅(Gaussian Splatting，GS)技术？复旦等最新《3D高斯作为新视觉时代》综述，详述3DGS技术

什么是3D高斯喷溅(Gaussian Splatting，GS)技术？复旦等最新《3D高斯作为新视觉时代》综述，详述3DGS技术

专知会员服务

43+阅读 · 2024年2月18日

斯坦福大学Jure团队提出《大规模可扩展知识图谱多跳推理框架SMORE》，实现单机运行8千万实体3亿级知识图谱推理

斯坦福大学Jure团队提出《大规模可扩展知识图谱多跳推理框架SMORE》，实现单机运行8千万实体3亿级知识图谱推理

专知会员服务

58+阅读 · 2021年11月3日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

风靡全球的GANs：一文看尽这“混世魔王”的“三生三世”

风靡全球的GANs：一文看尽这“混世魔王”的“三生三世”

新智元

11+阅读 · 2020年1月3日

何恺明团队开源3D目标检测新框架VoteNet：模型更简单、效率更高

何恺明团队开源3D目标检测新框架VoteNet：模型更简单、效率更高

AI前线

15+阅读 · 2019年9月1日

赛尔原创 | AAAI 2019 Gaussian Transformer: 一种自然语言推理的轻量方法

赛尔原创 | AAAI 2019 Gaussian Transformer: 一种自然语言推理的轻量方法

哈工大SCIR

13+阅读 · 2019年5月6日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

AI科技评论

10+阅读 · 2019年3月2日

揭开GANs的神秘面纱

揭开GANs的神秘面纱

机器学习算法与Python学习

10+阅读 · 2019年2月27日

【学界】GANs最新综述论文: 生成式对抗网络及其变种如何有用

【学界】GANs最新综述论文: 生成式对抗网络及其变种如何有用

GAN生成式对抗网络

30+阅读 · 2019年1月5日

GANs最新综述论文: 生成式对抗网络及其变种如何有用【附41页pdf下载】

GANs最新综述论文: 生成式对抗网络及其变种如何有用【附41页pdf下载】

专知

61+阅读 · 2019年1月5日

每日论文 | 深度卷积高斯过程；用多任务弱监督训练复杂模型；在时序数据中发现新连接类型

每日论文 | 深度卷积高斯过程；用多任务弱监督训练复杂模型；在时序数据中发现新连接类型

论智

12+阅读 · 2018年10月10日

【论文推荐】最新九篇自动问答相关论文—可解释推理网络、上下文知识图谱嵌入、注意力RNN、Multi-Cast注意力网络

【论文推荐】最新九篇自动问答相关论文—可解释推理网络、上下文知识图谱嵌入、注意力RNN、Multi-Cast注意力网络

专知

15+阅读 · 2018年6月29日

相关论文

Faster-GS: Analyzing and Improving Gaussian Splatting Optimization

Arxiv

0+阅读 · 2月10日

GaussianPOP: Principled Simplification Framework for Compact 3D Gaussian Splatting via Error Quantification

Arxiv

0+阅读 · 2月6日

Efficient Scene Modeling via Structure-Aware and Region-Prioritized 3D Gaussians

Arxiv

0+阅读 · 2月5日

Nix and Fix: Targeting 1000x Compression of 3D Gaussian Splatting with Diffusion Models

Arxiv

0+阅读 · 2月4日

Split&Splat: Zero-Shot Panoptic Segmentation via Explicit Instance Modeling and 3D Gaussian Splatting

Arxiv

0+阅读 · 2月1日

TIGaussian: Disentangle Gaussians for Spatial-Awared Text-Image-3D Alignment

Arxiv

0+阅读 · 1月27日

UniMGS: Unifying Mesh and 3D Gaussian Splatting with Single-Pass Rasterization and Proxy-Based Deformation

Arxiv

0+阅读 · 1月27日

SceneSplat++: A Large Dataset and Comprehensive Benchmark for Language Gaussian Splatting

Arxiv

0+阅读 · 1月25日

LL-GaussianImage: Efficient Image Representation for Zero-shot Low-Light Enhancement with 2D Gaussian Splatting

Arxiv

0+阅读 · 1月22日

GaussianFluent: Gaussian Simulation for Dynamic Scenes with Mixed Materials

Arxiv

0+阅读 · 1月14日

相关基金

面向海量高维数据的可深度结合的贝叶斯网学习与推理新方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

模拟人眼视觉特性的高性能矢量多边形叠加分析算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

用于2D/3D切换显示的可调液体柱透镜阵列研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

14+阅读 · 2015年12月31日

基于高维流形计算的混沌密码攻击方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

若干类ABSDEs以及其他类型BSDEs的研究

国家自然科学基金

0+阅读 · 2015年12月31日

高斯序列与过程的极值理论

国家自然科学基金

2+阅读 · 2015年12月31日

基于臭氧技术的Ge基高介电常数栅介质MOS器件的基础研究：界面特性、栅电荷分布及起源、迁移率散射机制

国家自然科学基金

0+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员