作为人类,我们无时无刻不在与一个三维的动态世界进行交互并对其进行观察。然而,在视觉算法中构建这种时空(Spatiotemporal)或 4D 理解并非易事,因为 4D 数据的规模比 2D 图像和视频少几个数量级。这凸显了寻找有效方法利用 2D 数据来实现 4D 任务的必要性。 近期,构建“基础模型(Foundation Models)”方面的进展——即通过互联网级数据以数据驱动的方式学习生成式或结构化先验——使我们能够“免费”获得这些丰富的现实世界先验。在本论文中,我们研究了如何针对 非全貌跟踪与补全(Amodal Tracking and Completion)、动态重建(Dynamic Reconstruction)以及 下一时刻预测(Next-timestep Prediction)等 4D 感知任务,对这些先验进行调整(Tuning)。 我们从三个互补的方向展开研究:

首先,在缺乏基础先验的情况下,我们通过自监督方式自行构建先验。 具体而言,我们利用动态场景的 3D LiDAR 扫描序列执行下一时刻预测任务。重要的是,我们证明了利用 4D 表征(4D Representation)作为下一时刻预测的瓶颈(Bottlenecking)至关重要。研究发现,此类预测模型可用于自动驾驶的下游运动规划,有助于大幅降低碰撞率。

其次,我们以零样本(Zero-shot)方式利用基础先验。 我们转向能够预测图像和视频像素级深度的大型重建模型。我们利用这些模型解决了两个欠定(Underconstrained)任务:(1) 在 2.5D 空间中跨越遮挡进行目标跟踪;(2) 基于稀疏视角进行动态场景重建。在两种场景下,我们均发现通过引入数据驱动的深度先验作为额外的场景线索,可以取得远超现有最先进技术(SOTA)的效果。

第三,我们通过微调(Finetuning)来挖掘基础先验。 我们专门研究了视频扩散模型(Video Diffusion Models),并将非全貌感知(Amodal Perception)和动态新视角合成(Dynamic Novel-view Synthesis)重新表述为视频模型所擅长的自监督任务,即图像补全(Inpainting)。我们发现,微调视频扩散模型在数据和计算量方面都惊人地轻量化。这表明基础模型中已经嵌入了类似于人类视觉感知的概念,只需对其进行“控制”即可执行其他任务。

综上所述,这些贡献突出了如何以可扩展(Scalable)的方式构建、利用和适配基础先验以实现时空感知——这种可扩展性是通过日益依赖互联网规模的 2D 数据,并精心设计自监督学习目标而实现的。

成为VIP会员查看完整内容
9

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【CMU博士论文】物理世界的视觉感知与深度理解
专知会员服务
14+阅读 · 4月22日
【CMU博士论文】迈向可扩展的开放世界三维感知
专知会员服务
13+阅读 · 4月17日
【CMU博士论文】迈向具备基础先验的四维感知
专知会员服务
15+阅读 · 2025年11月2日
【牛津大学博士论文】结合学习先验的三维建图与理解
专知会员服务
16+阅读 · 2025年9月10日
4D生成技术的进展:研究综述
专知会员服务
24+阅读 · 2025年3月19日
【伯克利博士论文】揭示任何视频背后的四维世界
专知会员服务
26+阅读 · 2024年11月24日
【CMU博士论文】多感官人工智能的基础
专知会员服务
40+阅读 · 2024年5月3日
【悉尼大学博士论文】深度3D信息预测与理解,184页pdf
专知会员服务
41+阅读 · 2022年12月27日
【优青论文】视觉问答技术研究
计算机研究与发展
13+阅读 · 2018年9月21日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
最新内容
2025年大语言模型进展报告
专知会员服务
1+阅读 · 今天13:30
多智能体协作机制
专知会员服务
1+阅读 · 今天13:26
非对称优势:美海军开发低成本反无人机技术
专知会员服务
4+阅读 · 今天4:39
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
6+阅读 · 今天2:48
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
9+阅读 · 今天2:43
【NTU博士论文】3D人体动作生成
专知会员服务
7+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
8+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
14+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
10+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
5+阅读 · 4月24日
相关VIP内容
【CMU博士论文】物理世界的视觉感知与深度理解
专知会员服务
14+阅读 · 4月22日
【CMU博士论文】迈向可扩展的开放世界三维感知
专知会员服务
13+阅读 · 4月17日
【CMU博士论文】迈向具备基础先验的四维感知
专知会员服务
15+阅读 · 2025年11月2日
【牛津大学博士论文】结合学习先验的三维建图与理解
专知会员服务
16+阅读 · 2025年9月10日
4D生成技术的进展:研究综述
专知会员服务
24+阅读 · 2025年3月19日
【伯克利博士论文】揭示任何视频背后的四维世界
专知会员服务
26+阅读 · 2024年11月24日
【CMU博士论文】多感官人工智能的基础
专知会员服务
40+阅读 · 2024年5月3日
【悉尼大学博士论文】深度3D信息预测与理解,184页pdf
专知会员服务
41+阅读 · 2022年12月27日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
微信扫码咨询专知VIP会员