GSMem: 3D Gaussian Splatting as Persistent Spatial Memory for Zero-Shot Embodied Exploration and Reasoning - 专知论文

会员服务 ·

0

三维高斯 · 样本 · 零样本 · 最优 · 鲁棒 ·

GSMem: 3D Gaussian Splatting as Persistent Spatial Memory for Zero-Shot Embodied Exploration and Reasoning

翻译：GSMem：三维高斯泼溅作为持久空间记忆用于零样本具身探索与推理

Yiren Lu,Yi Du,Disheng Liu,Yunlai Zhou,Chen Wang,Yu Yin

from arxiv, Project page at https://vulab-ai.github.io/GSMem/

Effective embodied exploration requires agents to accumulate and retain spatial knowledge over time. However, existing scene representations, such as discrete scene graphs or static view-based snapshots, lack \textit{post-hoc re-observability}. If an initial observation misses a target, the resulting memory omission is often irrecoverable. To bridge this gap, we propose \textbf{GSMem}, a zero-shot embodied exploration and reasoning framework built upon 3D Gaussian Splatting (3DGS). By explicitly parameterizing continuous geometry and dense appearance, 3DGS serves as a persistent spatial memory that endows the agent with \textit{Spatial Recollection}: the ability to render photorealistic novel views from optimal, previously unoccupied viewpoints. To operationalize this, GSMem employs a retrieval mechanism that simultaneously leverages parallel object-level scene graphs and semantic-level language fields. This complementary design robustly localizes target regions, enabling the agent to ``hallucinate'' optimal views for high-fidelity Vision-Language Model (VLM) reasoning. Furthermore, we introduce a hybrid exploration strategy that combines VLM-driven semantic scoring with a 3DGS-based coverage objective, balancing task-aware exploration with geometric coverage. Extensive experiments on embodied question answering and lifelong navigation demonstrate the robustness and effectiveness of our framework

翻译：有效的具身探索要求智能体随时间累积并保留空间知识。然而，现有场景表示（如离散场景图或基于静态视图的快照）缺乏事后可重观测性。若初始观测遗漏目标，由此导致的记忆缺失往往无法恢复。为弥合这一鸿沟，我们提出GSMem——一种基于三维高斯泼溅(3DGS)构建的零样本具身探索与推理框架。通过显式参数化连续几何与密集外观，3DGS作为持久空间记忆赋予智能体空间回溯能力：即能够从最优的、先前未占据视点渲染出逼真的新视角视图。为实现该能力，GSMem采用一种检索机制，同时利用并行对象级场景图与语义级语言场。这种互补性设计可鲁棒定位目标区域，使智能体“幻觉”出最优视图以支持高保真视觉语言模型(VLM)推理。此外，我们引入一种混合探索策略，将VLM驱动的语义评分与基于3DGS的覆盖目标相结合，平衡任务感知探索与几何覆盖。在具身问答与终身导航任务上的大量实验证明了我们框架的鲁棒性与有效性。

0

相关内容

三维高斯

ICML 2026｜MEMOPILOT：用强化学习训练会进化的智能体记忆

ICML 2026｜MEMOPILOT：用强化学习训练会进化的智能体记忆

专知会员服务

6+阅读 · 6月13日

面向具身智能与机器人仿真的三维生成：综述

面向具身智能与机器人仿真的三维生成：综述

专知会员服务

17+阅读 · 4月30日

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

专知会员服务

9+阅读 · 2025年10月15日

三维高斯泼溅应用综述：分割、编辑与生成

三维高斯泼溅应用综述：分割、编辑与生成

专知会员服务

17+阅读 · 2025年8月14日

如何高效识别新概念？香港理工等最新元素级零样本识别技术系统性综述

如何高效识别新概念？香港理工等最新元素级零样本识别技术系统性综述

专知会员服务

14+阅读 · 2024年11月28日

机器人中的三维高斯溅射：综述

机器人中的三维高斯溅射：综述

专知会员服务

29+阅读 · 2024年10月17日

什么是3D高斯喷溅(Gaussian Splatting，GS)技术？复旦等最新《3D高斯作为新视觉时代》综述，详述3DGS技术

什么是3D高斯喷溅(Gaussian Splatting，GS)技术？复旦等最新《3D高斯作为新视觉时代》综述，详述3DGS技术

专知会员服务

44+阅读 · 2024年2月18日

【斯坦福博士论文】具有高效时空推理的三维场景理解，122页pdf

【斯坦福博士论文】具有高效时空推理的三维场景理解，122页pdf

专知会员服务

37+阅读 · 2022年9月26日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

【DeepMind-ICLR2020】MEMO-情景记忆的灵活组合的深层网络，A DEEP NETWORK FOR FLEXIBLE COMBINATION OF EPISODIC MEMORIES

【DeepMind-ICLR2020】MEMO-情景记忆的灵活组合的深层网络，A DEEP NETWORK FOR FLEXIBLE COMBINATION OF EPISODIC MEMORIES

专知会员服务

18+阅读 · 2020年2月2日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

27+阅读 · 2022年11月24日

南理工最新「深度学习细粒度图像分析」综述论文，带你全面了解细粒度图像识别与检索方法

南理工最新「深度学习细粒度图像分析」综述论文，带你全面了解细粒度图像识别与检索方法

专知

12+阅读 · 2021年11月21日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

DeepMind 牛津大学《视觉注意力机制》，提高视觉推理能力（PPT下载）

DeepMind 牛津大学《视觉注意力机制》，提高视觉推理能力（PPT下载）

专知

13+阅读 · 2018年9月25日

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

专知

32+阅读 · 2018年8月14日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

专知

17+阅读 · 2018年2月11日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

基于体素划分模型的多视图深度信息融合三维重建研究

国家自然科学基金

2+阅读 · 2015年12月31日

人体行为识别的时空耦合随机图模型及其高效推理算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

广义双随机相位编码系统中以QR码为载体的信息加密及无损恢复

国家自然科学基金

0+阅读 · 2015年12月31日

基于记忆的不变图像特征学习方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

状态空间搜索的anytime模式及其高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

用隐身方法对散射介质后物体非侵入式成像

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

飞秒激光三维形貌测量方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

3D Generation for Embodied AI and Robotic Simulation: A Survey

Arxiv

0+阅读 · 4月29日

ODE-GS: Latent ODEs for Dynamic Scene Extrapolation with 3D Gaussian Splatting

Arxiv

0+阅读 · 4月26日

MemoryDiorama: Generating Dynamic 3D Diorama from Everyday Photos for Memory Recall

Arxiv

0+阅读 · 4月8日

MemMachine: A Ground-Truth-Preserving Memory System for Personalized AI Agents

Arxiv

0+阅读 · 4月6日

SpeeDe3DGS: Speedy Deformable 3D Gaussian Splatting with Temporal Pruning and Motion Grouping

Arxiv

0+阅读 · 3月27日

Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models

Arxiv

0+阅读 · 3月26日

ImmerseGen: Agent-Guided Immersive World Generation with Alpha-Textured Proxies

Arxiv

0+阅读 · 3月24日

RoboMemory: A Brain-inspired Multi-memory Agentic Framework for Interactive Environmental Learning in Physical Embodied Systems

Arxiv

0+阅读 · 3月24日

All-Mem: Agentic Lifelong Memory via Dynamic Topology Evolution

Arxiv

0+阅读 · 3月20日

Remove360: Benchmarking Residuals After Object Removal in 3D Gaussian Splatting

Arxiv

0+阅读 · 3月19日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

3+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

ICML 2026｜MEMOPILOT：用强化学习训练会进化的智能体记忆

ICML 2026｜MEMOPILOT：用强化学习训练会进化的智能体记忆

专知会员服务

6+阅读 · 6月13日

面向具身智能与机器人仿真的三维生成：综述

面向具身智能与机器人仿真的三维生成：综述

专知会员服务

17+阅读 · 4月30日

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

专知会员服务

9+阅读 · 2025年10月15日

三维高斯泼溅应用综述：分割、编辑与生成

三维高斯泼溅应用综述：分割、编辑与生成

专知会员服务

17+阅读 · 2025年8月14日

如何高效识别新概念？香港理工等最新元素级零样本识别技术系统性综述

如何高效识别新概念？香港理工等最新元素级零样本识别技术系统性综述

专知会员服务

14+阅读 · 2024年11月28日

机器人中的三维高斯溅射：综述

机器人中的三维高斯溅射：综述

专知会员服务

29+阅读 · 2024年10月17日

什么是3D高斯喷溅(Gaussian Splatting，GS)技术？复旦等最新《3D高斯作为新视觉时代》综述，详述3DGS技术

什么是3D高斯喷溅(Gaussian Splatting，GS)技术？复旦等最新《3D高斯作为新视觉时代》综述，详述3DGS技术

专知会员服务

44+阅读 · 2024年2月18日

【斯坦福博士论文】具有高效时空推理的三维场景理解，122页pdf

【斯坦福博士论文】具有高效时空推理的三维场景理解，122页pdf

专知会员服务

37+阅读 · 2022年9月26日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

【DeepMind-ICLR2020】MEMO-情景记忆的灵活组合的深层网络，A DEEP NETWORK FOR FLEXIBLE COMBINATION OF EPISODIC MEMORIES

【DeepMind-ICLR2020】MEMO-情景记忆的灵活组合的深层网络，A DEEP NETWORK FOR FLEXIBLE COMBINATION OF EPISODIC MEMORIES

专知会员服务

18+阅读 · 2020年2月2日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

27+阅读 · 2022年11月24日

南理工最新「深度学习细粒度图像分析」综述论文，带你全面了解细粒度图像识别与检索方法

南理工最新「深度学习细粒度图像分析」综述论文，带你全面了解细粒度图像识别与检索方法

专知

12+阅读 · 2021年11月21日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

DeepMind 牛津大学《视觉注意力机制》，提高视觉推理能力（PPT下载）

DeepMind 牛津大学《视觉注意力机制》，提高视觉推理能力（PPT下载）

专知

13+阅读 · 2018年9月25日

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

专知

32+阅读 · 2018年8月14日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

专知

17+阅读 · 2018年2月11日

相关论文

3D Generation for Embodied AI and Robotic Simulation: A Survey

Arxiv

0+阅读 · 4月29日

ODE-GS: Latent ODEs for Dynamic Scene Extrapolation with 3D Gaussian Splatting

Arxiv

0+阅读 · 4月26日

MemoryDiorama: Generating Dynamic 3D Diorama from Everyday Photos for Memory Recall

Arxiv

0+阅读 · 4月8日

MemMachine: A Ground-Truth-Preserving Memory System for Personalized AI Agents

Arxiv

0+阅读 · 4月6日

SpeeDe3DGS: Speedy Deformable 3D Gaussian Splatting with Temporal Pruning and Motion Grouping

Arxiv

0+阅读 · 3月27日

Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models

Arxiv

0+阅读 · 3月26日

ImmerseGen: Agent-Guided Immersive World Generation with Alpha-Textured Proxies

Arxiv

0+阅读 · 3月24日

RoboMemory: A Brain-inspired Multi-memory Agentic Framework for Interactive Environmental Learning in Physical Embodied Systems

Arxiv

0+阅读 · 3月24日

All-Mem: Agentic Lifelong Memory via Dynamic Topology Evolution

Arxiv

0+阅读 · 3月20日

Remove360: Benchmarking Residuals After Object Removal in 3D Gaussian Splatting

Arxiv

0+阅读 · 3月19日

相关基金

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

基于体素划分模型的多视图深度信息融合三维重建研究

国家自然科学基金

2+阅读 · 2015年12月31日

人体行为识别的时空耦合随机图模型及其高效推理算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

广义双随机相位编码系统中以QR码为载体的信息加密及无损恢复

国家自然科学基金

0+阅读 · 2015年12月31日

基于记忆的不变图像特征学习方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

状态空间搜索的anytime模式及其高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

用隐身方法对散射介质后物体非侵入式成像

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

飞秒激光三维形貌测量方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员