【CMU博士论文】迈向基于基础先验的 4D 感知研究

作为人类，我们无时无刻不在与一个三维的动态世界进行交互并对其进行观察。然而，在视觉算法中构建这种时空（Spatiotemporal）或 4D 理解并非易事，因为 4D 数据的规模比 2D 图像和视频少几个数量级。这凸显了寻找有效方法利用 2D 数据来实现 4D 任务的必要性。近期，构建“基础模型（Foundation Models）”方面的进展——即通过互联网级数据以数据驱动的方式学习生成式或结构化先验——使我们能够“免费”获得这些丰富的现实世界先验。在本论文中，我们研究了如何针对 非全貌跟踪与补全（Amodal Tracking and Completion）、动态重建（Dynamic Reconstruction）以及 下一时刻预测（Next-timestep Prediction）等 4D 感知任务，对这些先验进行调整（Tuning）。我们从三个互补的方向展开研究：

首先，在缺乏基础先验的情况下，我们通过自监督方式自行构建先验。 具体而言，我们利用动态场景的 3D LiDAR 扫描序列执行下一时刻预测任务。重要的是，我们证明了利用 4D 表征（4D Representation）作为下一时刻预测的瓶颈（Bottlenecking）至关重要。研究发现，此类预测模型可用于自动驾驶的下游运动规划，有助于大幅降低碰撞率。

其次，我们以零样本（Zero-shot）方式利用基础先验。 我们转向能够预测图像和视频像素级深度的大型重建模型。我们利用这些模型解决了两个欠定（Underconstrained）任务：(1) 在 2.5D 空间中跨越遮挡进行目标跟踪；(2) 基于稀疏视角进行动态场景重建。在两种场景下，我们均发现通过引入数据驱动的深度先验作为额外的场景线索，可以取得远超现有最先进技术（SOTA）的效果。

第三，我们通过微调（Finetuning）来挖掘基础先验。 我们专门研究了视频扩散模型（Video Diffusion Models），并将非全貌感知（Amodal Perception）和动态新视角合成（Dynamic Novel-view Synthesis）重新表述为视频模型所擅长的自监督任务，即图像补全（Inpainting）。我们发现，微调视频扩散模型在数据和计算量方面都惊人地轻量化。这表明基础模型中已经嵌入了类似于人类视觉感知的概念，只需对其进行“控制”即可执行其他任务。

综上所述，这些贡献突出了如何以可扩展（Scalable）的方式构建、利用和适配基础先验以实现时空感知——这种可扩展性是通过日益依赖互联网规模的 2D 数据，并精心设计自监督学习目标而实现的。

成为VIP会员查看完整内容

相关内容

博士论文

关注 130

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

14+阅读 · 4月22日

【CMU博士论文】迈向可扩展的开放世界三维感知

专知会员服务

13+阅读 · 4月17日

【CMU博士论文】迈向具备基础先验的四维感知

专知会员服务

15+阅读 · 2025年11月2日

【NTU博士论文】面向高效感知与可扩展生成的三维物理世界

专知会员服务

12+阅读 · 2025年10月3日