FLAG-4D：用于4D重建的流引导局部-全局双变形模型 (FLAG-4D: Flow-Guided Local-Global Dual-Deformation Model for 4D Reconstruction) - 专知论文

会员服务 ·

0

变形 · 重建 · 3D · 4D重建 · 细粒度 ·

FLAG-4D: Flow-Guided Local-Global Dual-Deformation Model for 4D Reconstruction

翻译：FLAG-4D：用于4D重建的流引导局部-全局双变形模型

Guan Yuan Tan,Ngoc Tuan Vu,Arghya Pal,Sailaja Rajanala,Raphael Phan C. -W.,Mettu Srinivas,Chee-Ming Ting

We introduce FLAG-4D, a novel framework for generating novel views of dynamic scenes by reconstructing how 3D Gaussian primitives evolve through space and time. Existing methods typically rely on a single Multilayer Perceptron (MLP) to model temporal deformations, and they often struggle to capture complex point motions and fine-grained dynamic details consistently over time, especially from sparse input views. Our approach, FLAG-4D, overcomes this by employing a dual-deformation network that dynamically warps a canonical set of 3D Gaussians over time into new positions and anisotropic shapes. This dual-deformation network consists of an Instantaneous Deformation Network (IDN) for modeling fine-grained, local deformations and a Global Motion Network (GMN) for capturing long-range dynamics, refined through mutual learning. To ensure these deformations are both accurate and temporally smooth, FLAG-4D incorporates dense motion features from a pretrained optical flow backbone. We fuse these motion cues from adjacent timeframes and use a deformation-guided attention mechanism to align this flow information with the current state of each evolving 3D Gaussian. Extensive experiments demonstrate that FLAG-4D achieves higher-fidelity and more temporally coherent reconstructions with finer detail preservation than state-of-the-art methods.

翻译：我们提出了FLAG-4D，这是一个通过重建3D高斯基元在时空中的演化来生成动态场景新视图的新型框架。现有方法通常依赖单一的多层感知机（MLP）来建模时间变形，并且常常难以在时间上一致地捕捉复杂的点运动和细粒度动态细节，尤其是在稀疏输入视图的情况下。我们的方法FLAG-4D通过采用一个双变形网络克服了这一局限，该网络动态地将一组规范的3D高斯随时间扭曲到新的位置并形成各向异性的形状。该双变形网络由一个用于建模细粒度局部变形的瞬时变形网络（IDN）和一个用于捕捉长程动态的全局运动网络（GMN）组成，二者通过相互学习进行优化。为确保这些变形既准确又具有时间平滑性，FLAG-4D整合了来自预训练光流骨干网络的稠密运动特征。我们融合了相邻时间帧的这些运动线索，并利用一个变形引导的注意力机制将此光流信息与每个演化中的3D高斯的当前状态对齐。大量实验表明，与现有最先进方法相比，FLAG-4D能够实现更高保真度、时间更连贯且能更好保留细节的重建结果。

0

相关内容

【NeurIPS2025】Instant4D：高效的4D高斯喷溅方法

【NeurIPS2025】Instant4D：高效的4D高斯喷溅方法

专知会员服务

7+阅读 · 2025年10月2日

4D生成技术的进展：研究综述

4D生成技术的进展：研究综述

专知会员服务

24+阅读 · 2025年3月19日

【CVPR2025】4D LangSplat：基于多模态大语言模型的4D语言高斯溅射

【CVPR2025】4D LangSplat：基于多模态大语言模型的4D语言高斯溅射

专知会员服务

13+阅读 · 2025年3月16日

【CVPR2025】FluidNexus: 基于单个视频的三维流体重建与预测

【CVPR2025】FluidNexus: 基于单个视频的三维流体重建与预测

专知会员服务

11+阅读 · 2025年3月7日

【CVPR2025】DIFIX3D+：通过单步扩散模型改进3D重建

【CVPR2025】DIFIX3D+：通过单步扩散模型改进3D重建

专知会员服务

11+阅读 · 2025年3月4日

【ICLR2025】基于图形引导的图像场景重建：3D高斯散射方法

【ICLR2025】基于图形引导的图像场景重建：3D高斯散射方法

专知会员服务

13+阅读 · 2025年2月25日

LargeAD：面向自动驾驶的大规模跨传感器数据预训练

LargeAD：面向自动驾驶的大规模跨传感器数据预训练

专知会员服务

17+阅读 · 2025年1月8日

什么是3D高斯喷溅(Gaussian Splatting，GS)技术？复旦等最新《3D高斯作为新视觉时代》综述，详述3DGS技术

什么是3D高斯喷溅(Gaussian Splatting，GS)技术？复旦等最新《3D高斯作为新视觉时代》综述，详述3DGS技术

专知会员服务

43+阅读 · 2024年2月18日

Meta-Transformer：多模态学习的统一框架

Meta-Transformer：多模态学习的统一框架

专知会员服务

59+阅读 · 2023年7月21日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

【Flink】基于 Flink 的流式数据实时去重

【Flink】基于 Flink 的流式数据实时去重

AINLP

14+阅读 · 2020年9月29日

三维重建 3D reconstruction 有哪些实用算法？

三维重建 3D reconstruction 有哪些实用算法？

极市平台

13+阅读 · 2020年2月23日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

【泡泡图灵智库】FlowNet3D:在三维点云中学习场景流（CVPR）

【泡泡图灵智库】FlowNet3D:在三维点云中学习场景流（CVPR）

泡泡机器人SLAM

13+阅读 · 2019年6月13日

【泡泡点云时空】FlowNet3D：学习三维点云中的场景流

【泡泡点云时空】FlowNet3D：学习三维点云中的场景流

泡泡机器人SLAM

41+阅读 · 2019年5月19日

使用双目相机进行三维重建第二部分：姿态估计

使用双目相机进行三维重建第二部分：姿态估计

AI研习社

12+阅读 · 2019年5月7日

【泡泡点云时空】3DFeat-Net：用于点云配准的弱监督学习的局部3D特征（ECCV2018-3）

【泡泡点云时空】3DFeat-Net：用于点云配准的弱监督学习的局部3D特征（ECCV2018-3）

泡泡机器人SLAM

12+阅读 · 2018年10月2日

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

泡泡机器人SLAM

47+阅读 · 2018年8月1日

【泡泡一分钟】基于紧凑模型表示的三维重建（3dv-12）

【泡泡一分钟】基于紧凑模型表示的三维重建（3dv-12）

泡泡机器人SLAM

10+阅读 · 2017年12月7日

动态环境下的实时高清大规模三维地形重建研究

国家自然科学基金

3+阅读 · 2015年12月31日

无人机视频快速4-D重建及时空自适应索引方法研究

国家自然科学基金

8+阅读 · 2015年12月31日

具有重构特征的系统可靠性建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

多视环境下基于变分水平集的场景流估计

国家自然科学基金

0+阅读 · 2015年12月31日

工业过程动态数据的多模型在线重构研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂场景点线光流三维重建模型的建立及鲁棒性分析

国家自然科学基金

2+阅读 · 2014年12月31日

基于形态改变的多体空间系统动力学建模、运动规划与最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

融合机载与车载点云的建筑物群快速三维重建方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于立体视觉的结构大变形全过程非接触动态测量方法

国家自然科学基金

0+阅读 · 2014年12月31日

Flow4R: Unifying 4D Reconstruction and Tracking with Scene Flow

Arxiv

0+阅读 · 2月15日

4RC: 4D Reconstruction via Conditional Querying Anytime and Anywhere

Arxiv

0+阅读 · 2月10日

MotionCrafter: Dense Geometry and Motion Reconstruction with a 4D VAE

Arxiv

0+阅读 · 2月9日

Grow with the Flow: 4D Reconstruction of Growing Plants with Gaussian Flow Fields

Arxiv

0+阅读 · 2月9日

TIBR4D: Tracing-Guided Iterative Boundary Refinement for Efficient 4D Gaussian Segmentation

Arxiv

0+阅读 · 2月9日

Split&Splat: Zero-Shot Panoptic Segmentation via Explicit Instance Modeling and 3D Gaussian Splatting

Arxiv

0+阅读 · 2月1日

VersaQ-3D: A Reconfigurable Accelerator Enabling Feed-Forward and Generalizable 3D Reconstruction via Versatile Quantization

Arxiv

0+阅读 · 1月28日

Motion 3-to-4: 3D Motion Reconstruction for 4D Synthesis

Arxiv

0+阅读 · 1月20日

Light4GS: Lightweight Compact 4D Gaussian Splatting Generation via Context Model

Arxiv

0+阅读 · 1月20日

Temporal Smoothness-Aware Rate-Distortion Optimized 4D Gaussian Splatting

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

相关VIP内容

【NeurIPS2025】Instant4D：高效的4D高斯喷溅方法

【NeurIPS2025】Instant4D：高效的4D高斯喷溅方法

专知会员服务

7+阅读 · 2025年10月2日

4D生成技术的进展：研究综述

4D生成技术的进展：研究综述

专知会员服务

24+阅读 · 2025年3月19日

【CVPR2025】4D LangSplat：基于多模态大语言模型的4D语言高斯溅射

【CVPR2025】4D LangSplat：基于多模态大语言模型的4D语言高斯溅射

专知会员服务

13+阅读 · 2025年3月16日

【CVPR2025】FluidNexus: 基于单个视频的三维流体重建与预测

【CVPR2025】FluidNexus: 基于单个视频的三维流体重建与预测

专知会员服务

11+阅读 · 2025年3月7日

【CVPR2025】DIFIX3D+：通过单步扩散模型改进3D重建

【CVPR2025】DIFIX3D+：通过单步扩散模型改进3D重建

专知会员服务

11+阅读 · 2025年3月4日

【ICLR2025】基于图形引导的图像场景重建：3D高斯散射方法

【ICLR2025】基于图形引导的图像场景重建：3D高斯散射方法

专知会员服务

13+阅读 · 2025年2月25日

LargeAD：面向自动驾驶的大规模跨传感器数据预训练

LargeAD：面向自动驾驶的大规模跨传感器数据预训练

专知会员服务

17+阅读 · 2025年1月8日

什么是3D高斯喷溅(Gaussian Splatting，GS)技术？复旦等最新《3D高斯作为新视觉时代》综述，详述3DGS技术

什么是3D高斯喷溅(Gaussian Splatting，GS)技术？复旦等最新《3D高斯作为新视觉时代》综述，详述3DGS技术

专知会员服务

43+阅读 · 2024年2月18日

Meta-Transformer：多模态学习的统一框架

Meta-Transformer：多模态学习的统一框架

专知会员服务

59+阅读 · 2023年7月21日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

【Flink】基于 Flink 的流式数据实时去重

【Flink】基于 Flink 的流式数据实时去重

AINLP

14+阅读 · 2020年9月29日

三维重建 3D reconstruction 有哪些实用算法？

三维重建 3D reconstruction 有哪些实用算法？

极市平台

13+阅读 · 2020年2月23日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

【泡泡图灵智库】FlowNet3D:在三维点云中学习场景流（CVPR）

【泡泡图灵智库】FlowNet3D:在三维点云中学习场景流（CVPR）

泡泡机器人SLAM

13+阅读 · 2019年6月13日

【泡泡点云时空】FlowNet3D：学习三维点云中的场景流

【泡泡点云时空】FlowNet3D：学习三维点云中的场景流

泡泡机器人SLAM

41+阅读 · 2019年5月19日

使用双目相机进行三维重建第二部分：姿态估计

使用双目相机进行三维重建第二部分：姿态估计

AI研习社

12+阅读 · 2019年5月7日

【泡泡点云时空】3DFeat-Net：用于点云配准的弱监督学习的局部3D特征（ECCV2018-3）

【泡泡点云时空】3DFeat-Net：用于点云配准的弱监督学习的局部3D特征（ECCV2018-3）

泡泡机器人SLAM

12+阅读 · 2018年10月2日

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

泡泡机器人SLAM

47+阅读 · 2018年8月1日

【泡泡一分钟】基于紧凑模型表示的三维重建（3dv-12）

【泡泡一分钟】基于紧凑模型表示的三维重建（3dv-12）

泡泡机器人SLAM

10+阅读 · 2017年12月7日

相关论文

Flow4R: Unifying 4D Reconstruction and Tracking with Scene Flow

Arxiv

0+阅读 · 2月15日

4RC: 4D Reconstruction via Conditional Querying Anytime and Anywhere

Arxiv

0+阅读 · 2月10日

MotionCrafter: Dense Geometry and Motion Reconstruction with a 4D VAE

Arxiv

0+阅读 · 2月9日

Grow with the Flow: 4D Reconstruction of Growing Plants with Gaussian Flow Fields

Arxiv

0+阅读 · 2月9日

TIBR4D: Tracing-Guided Iterative Boundary Refinement for Efficient 4D Gaussian Segmentation

Arxiv

0+阅读 · 2月9日

Split&Splat: Zero-Shot Panoptic Segmentation via Explicit Instance Modeling and 3D Gaussian Splatting

Arxiv

0+阅读 · 2月1日

VersaQ-3D: A Reconfigurable Accelerator Enabling Feed-Forward and Generalizable 3D Reconstruction via Versatile Quantization

Arxiv

0+阅读 · 1月28日

Motion 3-to-4: 3D Motion Reconstruction for 4D Synthesis

Arxiv

0+阅读 · 1月20日

Light4GS: Lightweight Compact 4D Gaussian Splatting Generation via Context Model

Arxiv

0+阅读 · 1月20日

Temporal Smoothness-Aware Rate-Distortion Optimized 4D Gaussian Splatting

Arxiv

0+阅读 · 1月13日

相关基金

动态环境下的实时高清大规模三维地形重建研究

国家自然科学基金

3+阅读 · 2015年12月31日

无人机视频快速4-D重建及时空自适应索引方法研究

国家自然科学基金

8+阅读 · 2015年12月31日

具有重构特征的系统可靠性建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

多视环境下基于变分水平集的场景流估计

国家自然科学基金

0+阅读 · 2015年12月31日

工业过程动态数据的多模型在线重构研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂场景点线光流三维重建模型的建立及鲁棒性分析

国家自然科学基金

2+阅读 · 2014年12月31日

基于形态改变的多体空间系统动力学建模、运动规划与最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

融合机载与车载点云的建筑物群快速三维重建方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于立体视觉的结构大变形全过程非接触动态测量方法

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员