Gaussian Sequences with Multi-Scale Dynamics for 4D Reconstruction from Monocular Casual Videos - 专知论文

会员服务 ·

0

重建 · 多尺度 · 视频 · 序列 · 数据集 ·

Gaussian Sequences with Multi-Scale Dynamics for 4D Reconstruction from Monocular Casual Videos

翻译：具有多尺度动态的高斯序列用于单目随意视频的四维重建

Can Li,Jie Gu,Jingmin Chen,Fangzhou Qiu,Lei Sun

Understanding dynamic scenes from casual videos is critical for scalable robot learning, yet four-dimensional (4D) reconstruction under strictly monocular settings remains highly ill-posed. To address this challenge, our key insight is that real-world dynamics exhibits a multi-scale regularity from object to particle level. To this end, we design the multi-scale dynamics mechanism that factorizes complex motion fields. Within this formulation, we propose Gaussian sequences with multi-scale dynamics, a novel representation for dynamic 3D Gaussians derived through compositions of multi-level motion. This layered structure substantially alleviates ambiguity of reconstruction and promotes physically plausible dynamics. We further incorporate multi-modal priors from vision foundation models to establish complementary supervision, constraining the solution space and improving the reconstruction fidelity. Our approach enables accurate and globally consistent 4D reconstruction from monocular casual videos. Experiments of dynamic novel-view synthesis (NVS) on benchmark and real-world manipulation datasets demonstrate considerable improvements over existing methods.

翻译：从随意视频中理解动态场景对于可扩展的机器人学习至关重要，然而在严格单目设置下的四维（4D）重建问题仍然高度不适定。为应对这一挑战，我们的核心见解是：真实世界的动态在从物体到粒子层面展现出多尺度规律性。为此，我们设计了多尺度动态机制，用于分解复杂的运动场。在此框架下，我们提出了具有多尺度动态的高斯序列——一种通过多层级运动组合推导出的动态三维高斯新颖表示。这种分层结构显著缓解了重建的模糊性，并促进了物理上合理的动态。我们进一步整合了来自视觉基础模型的多模态先验知识，以建立互补的监督，约束解空间并提升重建保真度。我们的方法能够从单目随意视频中实现精确且全局一致的四维重建。在基准数据集和真实世界操作数据集上进行的动态新视角合成（NVS）实验表明，相较于现有方法，本方法取得了显著改进。

0

相关内容

【NeurIPS2025】Instant4D：高效的4D高斯喷溅方法

【NeurIPS2025】Instant4D：高效的4D高斯喷溅方法

专知会员服务

7+阅读 · 2025年10月2日

深度学习的多视角三维重建技术综述

深度学习的多视角三维重建技术综述

专知会员服务

23+阅读 · 2025年6月7日

【伯克利博士论文】揭示任何视频背后的四维世界

【伯克利博士论文】揭示任何视频背后的四维世界

专知会员服务

26+阅读 · 2024年11月24日

动态三维场景重建研究综述

动态三维场景重建研究综述

专知会员服务

36+阅读 · 2024年8月23日

【CVPR2024】VastGaussian: 用于大型场景重建的巨大三维高斯

【CVPR2024】VastGaussian: 用于大型场景重建的巨大三维高斯

专知会员服务

25+阅读 · 2024年3月3日

什么是3D高斯喷溅(Gaussian Splatting，GS)技术？复旦等最新《3D高斯作为新视觉时代》综述，详述3DGS技术

什么是3D高斯喷溅(Gaussian Splatting，GS)技术？复旦等最新《3D高斯作为新视觉时代》综述，详述3DGS技术

专知会员服务

44+阅读 · 2024年2月18日

【CMU博士论文】开放环境视频中的多人三维重建，184页pdf

【CMU博士论文】开放环境视频中的多人三维重建，184页pdf

专知会员服务

34+阅读 · 2023年10月11日

MBZ大学等最新《视觉基础模型》综述，详述视觉大模型技术进展

MBZ大学等最新《视觉基础模型》综述，详述视觉大模型技术进展

专知会员服务

75+阅读 · 2023年8月1日

【CVPR 2022】从大量非正式视频中构建可动画的3D神经模型，BANMo: Building Animatable 3D Neural Models from Many Casual Videos

【CVPR 2022】从大量非正式视频中构建可动画的3D神经模型，BANMo: Building Animatable 3D Neural Models from Many Casual Videos

专知会员服务

25+阅读 · 2022年3月3日

【牛津大学博士论文】使用多模态深度学习的视频理解

专知会员服务

68+阅读 · 2021年10月15日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

32+阅读 · 2022年10月17日

三维重建 3D reconstruction 有哪些实用算法？

三维重建 3D reconstruction 有哪些实用算法？

极市平台

13+阅读 · 2020年2月23日

【综述】深度学习在视频多目标跟踪上的应用

【综述】深度学习在视频多目标跟踪上的应用

专知

14+阅读 · 2019年8月8日

计算机视觉方向简介 | 三维重建技术概述

计算机视觉方向简介 | 三维重建技术概述

计算机视觉life

26+阅读 · 2019年6月13日

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

雷锋网

12+阅读 · 2019年3月26日

无人机图像处理技术精髓汇总 (一) 三维还原重建技术简介

无人机图像处理技术精髓汇总 (一) 三维还原重建技术简介

深度学习

13+阅读 · 2018年12月18日

【泡泡机器人公开课】第九十六课：单目相机动态场景三维重建 ‐‐ 从几何驱动到学习驱动--戴玉超

【泡泡机器人公开课】第九十六课：单目相机动态场景三维重建 ‐‐ 从几何驱动到学习驱动--戴玉超

泡泡机器人SLAM

12+阅读 · 2018年9月1日

计算机视觉方向简介 | 深度相机室内实时稠密三维重建

计算机视觉方向简介 | 深度相机室内实时稠密三维重建

计算机视觉life

17+阅读 · 2018年5月23日

【泡泡一分钟】基于多视图卷积网络的草图三维重建技术(3dv-66)

【泡泡一分钟】基于多视图卷积网络的草图三维重建技术(3dv-66)

泡泡机器人SLAM

11+阅读 · 2018年3月31日

一文概览基于深度学习的超分辨率重建架构

一文概览基于深度学习的超分辨率重建架构

论智

23+阅读 · 2018年3月24日

动态环境下的实时高清大规模三维地形重建研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于体素划分模型的多视图深度信息融合三维重建研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于张量的高维多通道图像压缩感知重建理论与算法及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

无人机视频快速4-D重建及时空自适应索引方法研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于尺度集的高分辨率遥感影像多尺度分类

国家自然科学基金

0+阅读 · 2015年12月31日

工业过程动态数据的多模型在线重构研究

国家自然科学基金

1+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于不动点方程解析求解的高动态场景多尺度分割

国家自然科学基金

0+阅读 · 2014年12月31日

基于形态改变的多体空间系统动力学建模、运动规划与最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

4D Synchronized Fields: Motion-Language Gaussian Splatting for Temporal Scene Understanding

Arxiv

0+阅读 · 3月15日

Dense Dynamic Scene Reconstruction and Camera Pose Estimation from Multi-View Videos

Arxiv

0+阅读 · 3月12日

Uncertainty Matters in Dynamic Gaussian Splatting for Monocular 4D Reconstruction

Arxiv

0+阅读 · 2月27日

Latent Gaussian Splatting for 4D Panoptic Occupancy Tracking

Arxiv

0+阅读 · 2月26日

Diff2DGS: Reliable Reconstruction of Occluded Surgical Scenes via 2D Gaussian Splatting

Arxiv

0+阅读 · 2月20日

A LoD of Gaussians: Unified Training and Rendering for Ultra-Large Scale Reconstruction with External Memory

Arxiv

0+阅读 · 2月17日

Flow4R: Unifying 4D Reconstruction and Tracking with Scene Flow

Arxiv

0+阅读 · 2月15日

Grow with the Flow: 4D Reconstruction of Growing Plants with Gaussian Flow Fields

Arxiv

0+阅读 · 2月9日

ShapeGaussian: High-Fidelity 4D Human Reconstruction in Monocular Videos via Vision Priors

Arxiv

0+阅读 · 2月5日

Geometry-aware 4D Video Generation for Robot Manipulation

Arxiv

0+阅读 · 2月4日

VIP会员

文章信息

相关主题

最新内容

【博士论文】基于物理结构与贝叶斯不确定性的可靠神经网络

【博士论文】基于物理结构与贝叶斯不确定性的可靠神经网络

专知会员服务

0+阅读 · 今天15:36

AgentOps综述：智能体系统运维框架

AgentOps综述：智能体系统运维框架

专知会员服务

0+阅读 · 今天15:30

《美陆军最新条令：兵力防护》

《美陆军最新条令：兵力防护》

专知会员服务

2+阅读 · 今天14:43

《军用物联网：架构、应用、挑战与现代战争中的战略意义》

《军用物联网：架构、应用、挑战与现代战争中的战略意义》

专知会员服务

2+阅读 · 今天14:30

《人工智能的挑战：算法战的想象与现实》

《人工智能的挑战：算法战的想象与现实》

专知会员服务

3+阅读 · 今天14:26

《自适应智能：融合数字孪生精准性与人工智能预见力，实现实时决策》

《自适应智能：融合数字孪生精准性与人工智能预见力，实现实时决策》

专知会员服务

4+阅读 · 今天14:22

首场人工智能战争：Maven如何重塑武装冲突

首场人工智能战争：Maven如何重塑武装冲突

专知会员服务

3+阅读 · 今天14:12

【博士论文】抽象信息论与安全奖励学习的数学发展

【博士论文】抽象信息论与安全奖励学习的数学发展

专知会员服务

7+阅读 · 6月3日

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

专知会员服务

5+阅读 · 6月3日

《推进军事决策支持：运用强化学习驱动仿真的稳健作战计划验证》

《推进军事决策支持：运用强化学习驱动仿真的稳健作战计划验证》

专知会员服务

10+阅读 · 6月3日

详解人工智能赋能战争的旗舰软件平台：Maven智能系统

详解人工智能赋能战争的旗舰软件平台：Maven智能系统

专知会员服务

19+阅读 · 6月3日

《发展用于决策支持的化生放核（CBRN）态势理解》

《发展用于决策支持的化生放核（CBRN）态势理解》

专知会员服务

8+阅读 · 6月3日

《通往人工通用智能之路上的均衡策略》

《通往人工通用智能之路上的均衡策略》

专知会员服务

7+阅读 · 6月3日

《人工智能与军事整合：现状与未来风险》报告

《人工智能与军事整合：现状与未来风险》报告

专知会员服务

5+阅读 · 6月3日

《Palantir的科技生态系统》

《Palantir的科技生态系统》

专知会员服务

17+阅读 · 6月2日

相关VIP内容

【NeurIPS2025】Instant4D：高效的4D高斯喷溅方法

【NeurIPS2025】Instant4D：高效的4D高斯喷溅方法

专知会员服务

7+阅读 · 2025年10月2日

深度学习的多视角三维重建技术综述

深度学习的多视角三维重建技术综述

专知会员服务

23+阅读 · 2025年6月7日

【伯克利博士论文】揭示任何视频背后的四维世界

【伯克利博士论文】揭示任何视频背后的四维世界

专知会员服务

26+阅读 · 2024年11月24日

动态三维场景重建研究综述

动态三维场景重建研究综述

专知会员服务

36+阅读 · 2024年8月23日

【CVPR2024】VastGaussian: 用于大型场景重建的巨大三维高斯

【CVPR2024】VastGaussian: 用于大型场景重建的巨大三维高斯

专知会员服务

25+阅读 · 2024年3月3日

什么是3D高斯喷溅(Gaussian Splatting，GS)技术？复旦等最新《3D高斯作为新视觉时代》综述，详述3DGS技术

什么是3D高斯喷溅(Gaussian Splatting，GS)技术？复旦等最新《3D高斯作为新视觉时代》综述，详述3DGS技术

专知会员服务

44+阅读 · 2024年2月18日

【CMU博士论文】开放环境视频中的多人三维重建，184页pdf

【CMU博士论文】开放环境视频中的多人三维重建，184页pdf

专知会员服务

34+阅读 · 2023年10月11日

MBZ大学等最新《视觉基础模型》综述，详述视觉大模型技术进展

MBZ大学等最新《视觉基础模型》综述，详述视觉大模型技术进展

专知会员服务

75+阅读 · 2023年8月1日

【CVPR 2022】从大量非正式视频中构建可动画的3D神经模型，BANMo: Building Animatable 3D Neural Models from Many Casual Videos

【CVPR 2022】从大量非正式视频中构建可动画的3D神经模型，BANMo: Building Animatable 3D Neural Models from Many Casual Videos

专知会员服务

25+阅读 · 2022年3月3日

【牛津大学博士论文】使用多模态深度学习的视频理解

专知会员服务

68+阅读 · 2021年10月15日

热门VIP内容

开通专知VIP会员享更多权益服务

AgentOps综述：智能体系统运维框架

《军用物联网：架构、应用、挑战与现代战争中的战略意义》

【博士论文】基于物理结构与贝叶斯不确定性的可靠神经网络

《美陆军最新条令：兵力防护》

相关资讯

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

32+阅读 · 2022年10月17日

三维重建 3D reconstruction 有哪些实用算法？

三维重建 3D reconstruction 有哪些实用算法？

极市平台

13+阅读 · 2020年2月23日

【综述】深度学习在视频多目标跟踪上的应用

【综述】深度学习在视频多目标跟踪上的应用

专知

14+阅读 · 2019年8月8日

计算机视觉方向简介 | 三维重建技术概述

计算机视觉方向简介 | 三维重建技术概述

计算机视觉life

26+阅读 · 2019年6月13日

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

雷锋网

12+阅读 · 2019年3月26日

无人机图像处理技术精髓汇总 (一) 三维还原重建技术简介

无人机图像处理技术精髓汇总 (一) 三维还原重建技术简介

深度学习

13+阅读 · 2018年12月18日

【泡泡机器人公开课】第九十六课：单目相机动态场景三维重建 ‐‐ 从几何驱动到学习驱动--戴玉超

【泡泡机器人公开课】第九十六课：单目相机动态场景三维重建 ‐‐ 从几何驱动到学习驱动--戴玉超

泡泡机器人SLAM

12+阅读 · 2018年9月1日

计算机视觉方向简介 | 深度相机室内实时稠密三维重建

计算机视觉方向简介 | 深度相机室内实时稠密三维重建

计算机视觉life

17+阅读 · 2018年5月23日

【泡泡一分钟】基于多视图卷积网络的草图三维重建技术(3dv-66)

【泡泡一分钟】基于多视图卷积网络的草图三维重建技术(3dv-66)

泡泡机器人SLAM

11+阅读 · 2018年3月31日

一文概览基于深度学习的超分辨率重建架构

一文概览基于深度学习的超分辨率重建架构

论智

23+阅读 · 2018年3月24日

相关论文

4D Synchronized Fields: Motion-Language Gaussian Splatting for Temporal Scene Understanding

Arxiv

0+阅读 · 3月15日

Dense Dynamic Scene Reconstruction and Camera Pose Estimation from Multi-View Videos

Arxiv

0+阅读 · 3月12日

Uncertainty Matters in Dynamic Gaussian Splatting for Monocular 4D Reconstruction

Arxiv

0+阅读 · 2月27日

Latent Gaussian Splatting for 4D Panoptic Occupancy Tracking

Arxiv

0+阅读 · 2月26日

Diff2DGS: Reliable Reconstruction of Occluded Surgical Scenes via 2D Gaussian Splatting

Arxiv

0+阅读 · 2月20日

A LoD of Gaussians: Unified Training and Rendering for Ultra-Large Scale Reconstruction with External Memory

Arxiv

0+阅读 · 2月17日

Flow4R: Unifying 4D Reconstruction and Tracking with Scene Flow

Arxiv

0+阅读 · 2月15日

Grow with the Flow: 4D Reconstruction of Growing Plants with Gaussian Flow Fields

Arxiv

0+阅读 · 2月9日

ShapeGaussian: High-Fidelity 4D Human Reconstruction in Monocular Videos via Vision Priors

Arxiv

0+阅读 · 2月5日

Geometry-aware 4D Video Generation for Robot Manipulation

Arxiv

0+阅读 · 2月4日

相关基金

动态环境下的实时高清大规模三维地形重建研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于体素划分模型的多视图深度信息融合三维重建研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于张量的高维多通道图像压缩感知重建理论与算法及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

无人机视频快速4-D重建及时空自适应索引方法研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于尺度集的高分辨率遥感影像多尺度分类

国家自然科学基金

0+阅读 · 2015年12月31日

工业过程动态数据的多模型在线重构研究

国家自然科学基金

1+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于不动点方程解析求解的高动态场景多尺度分割

国家自然科学基金

0+阅读 · 2014年12月31日

基于形态改变的多体空间系统动力学建模、运动规划与最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员