Recent 3D feed-forward models, such as the Visual Geometry Grounded Transformer (VGGT), have shown strong capability in inferring 3D attributes of static scenes. However, since they are typically trained on static datasets, these models often struggle in real-world scenarios involving complex dynamic elements, such as moving humans or deformable objects like umbrellas. To address this limitation, we introduce PAGE-4D, a feedforward model that extends VGGT to dynamic scenes, enabling camera pose estimation, depth prediction and point cloud reconstruction - all without post-processing. A central challenge in multitask 4D reconstruction is the inherent conflict between tasks: accurate camera pose estimation requires suppressing dynamic regions, while geometry reconstruction requires modeling them. To resolve this tension, we propose a dynamics aware aggregator that disentangles static and dynamic information by predicting a dynamics-aware mask - suppressing motion cues for pose estimation while amplifying them for geometry reconstruction. Extensive experiments show that PAGE-4D consistently outperforms the original VGGT in dynamic scenarios, achieving superior results in camera pose estimation, monocular and video depth estimation, and dense point map reconstruction. Necessary code and additional demos are available at Link: https://page4d.github.io/, including both the training-and-inference masking variant and the training-only masking variant (= VGGT architecture at inference). Keywords: VGGT-4D, 4D Perception, Dynamic Scene Reconstruction.


翻译:摘要:近期前馈3D模型(如视觉几何基础Transformer,VGGT)在静态场景的3D属性推断方面展现出强大的能力。然而,由于这些模型通常在静态数据集上训练,在面对包含移动人体或可变形物体(如雨伞)等复杂动态元素的真实场景时往往表现不佳。为解决这一局限,我们提出PAGE-4D——一种将VGGT扩展到动态场景的前馈模型,可实现相机位姿估计、深度预测与点云重建,且无需后处理。多任务4D重建的核心挑战在于任务间的固有冲突:精确的相机位姿估计需抑制动态区域,而几何重建则需对其建模。为化解这一矛盾,我们提出一种动态感知聚合器,通过预测动态感知掩码来解耦静态与动态信息——抑制位姿估计的运动线索,同时增强几何重建所需线索。大量实验表明,PAGE-4D在动态场景下始终优于原始VGGT,在相机位姿估计、单目与视频深度估计以及稠密点图重建中均取得更优结果。必要代码及更多演示请参见链接:https://page4d.github.io/,包含训练-推断掩码变体与仅训练掩码变体(推断时等价于VGGT架构)。关键词:VGGT-4D,4D感知,动态场景重建。

0
下载
关闭预览

相关内容

【CMU博士论文】迈向基于基础先验的 4D 感知研究
CVPR2025最新《Transformer模型》论文速读
专知会员服务
26+阅读 · 2025年3月17日
基于深度学习的物体姿态估计综述
专知会员服务
26+阅读 · 2024年5月15日
【KAUST博士论文】朝向可扩展的深度3D感知与生成,109页pdf
【泡泡点云时空】基于分割方法的物体六维姿态估计
泡泡机器人SLAM
18+阅读 · 2019年9月15日
实战 | 基于深度学习模型VGG的图像识别(附代码)
七月在线实验室
13+阅读 · 2018年3月30日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月14日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关资讯
【泡泡点云时空】基于分割方法的物体六维姿态估计
泡泡机器人SLAM
18+阅读 · 2019年9月15日
实战 | 基于深度学习模型VGG的图像识别(附代码)
七月在线实验室
13+阅读 · 2018年3月30日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员