作为人类,我们无时无刻不在与一个三维的动态世界进行交互并对其进行观察。然而,在视觉算法中构建这种时空(Spatiotemporal)或 4D 理解并非易事,因为 4D 数据的规模比 2D 图像和视频少几个数量级。这凸显了寻找有效方法利用 2D 数据来实现 4D 任务的必要性。 近期,构建“基础模型(Foundation Models)”方面的进展——即通过互联网级数据以数据驱动的方式学习生成式或结构化先验——使我们能够“免费”获得这些丰富的现实世界先验。在本论文中,我们研究了如何针对 非全貌跟踪与补全(Amodal Tracking and Completion)、动态重建(Dynamic Reconstruction)以及 下一时刻预测(Next-timestep Prediction)等 4D 感知任务,对这些先验进行调整(Tuning)。 我们从三个互补的方向展开研究:

首先,在缺乏基础先验的情况下,我们通过自监督方式自行构建先验。 具体而言,我们利用动态场景的 3D LiDAR 扫描序列执行下一时刻预测任务。重要的是,我们证明了利用 4D 表征(4D Representation)作为下一时刻预测的瓶颈(Bottlenecking)至关重要。研究发现,此类预测模型可用于自动驾驶的下游运动规划,有助于大幅降低碰撞率。

其次,我们以零样本(Zero-shot)方式利用基础先验。 我们转向能够预测图像和视频像素级深度的大型重建模型。我们利用这些模型解决了两个欠定(Underconstrained)任务:(1) 在 2.5D 空间中跨越遮挡进行目标跟踪;(2) 基于稀疏视角进行动态场景重建。在两种场景下,我们均发现通过引入数据驱动的深度先验作为额外的场景线索,可以取得远超现有最先进技术(SOTA)的效果。

第三,我们通过微调(Finetuning)来挖掘基础先验。 我们专门研究了视频扩散模型(Video Diffusion Models),并将非全貌感知(Amodal Perception)和动态新视角合成(Dynamic Novel-view Synthesis)重新表述为视频模型所擅长的自监督任务,即图像补全(Inpainting)。我们发现,微调视频扩散模型在数据和计算量方面都惊人地轻量化。这表明基础模型中已经嵌入了类似于人类视觉感知的概念,只需对其进行“控制”即可执行其他任务。

综上所述,这些贡献突出了如何以可扩展(Scalable)的方式构建、利用和适配基础先验以实现时空感知——这种可扩展性是通过日益依赖互联网规模的 2D 数据,并精心设计自监督学习目标而实现的。

成为VIP会员查看完整内容
11

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【CMU博士论文】物理世界的视觉感知与深度理解
专知会员服务
16+阅读 · 4月22日
【CMU博士论文】迈向可扩展的开放世界三维感知
专知会员服务
14+阅读 · 4月17日
【CMU博士论文】迈向具备基础先验的四维感知
专知会员服务
15+阅读 · 2025年11月2日
【牛津大学博士论文】结合学习先验的三维建图与理解
专知会员服务
16+阅读 · 2025年9月10日
4D生成技术的进展:研究综述
专知会员服务
24+阅读 · 2025年3月19日
【伯克利博士论文】揭示任何视频背后的四维世界
专知会员服务
26+阅读 · 2024年11月24日
【CMU博士论文】多感官人工智能的基础
专知会员服务
40+阅读 · 2024年5月3日
【悉尼大学博士论文】深度3D信息预测与理解,184页pdf
专知会员服务
41+阅读 · 2022年12月27日
【优青论文】视觉问答技术研究
计算机研究与发展
13+阅读 · 2018年9月21日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
最新内容
2026“人工智能+”行业发展蓝皮书(附下载)
专知会员服务
7+阅读 · 今天12:11
《强化学习数学基础》
专知会员服务
4+阅读 · 今天12:07
“Maven计划”的发展演变之“Maven智能系统”应用
《无人机革命:来自俄乌战场的启示》(报告)
专知会员服务
9+阅读 · 今天6:48
《实现联合作战能力所需的技术》58页报告
专知会员服务
5+阅读 · 今天6:30
以色列运用人工智能优化空袭警报系统
专知会员服务
5+阅读 · 今天6:20
以色列在多条战线部署AI智能体
专知会员服务
7+阅读 · 今天6:12
相关VIP内容
【CMU博士论文】物理世界的视觉感知与深度理解
专知会员服务
16+阅读 · 4月22日
【CMU博士论文】迈向可扩展的开放世界三维感知
专知会员服务
14+阅读 · 4月17日
【CMU博士论文】迈向具备基础先验的四维感知
专知会员服务
15+阅读 · 2025年11月2日
【牛津大学博士论文】结合学习先验的三维建图与理解
专知会员服务
16+阅读 · 2025年9月10日
4D生成技术的进展:研究综述
专知会员服务
24+阅读 · 2025年3月19日
【伯克利博士论文】揭示任何视频背后的四维世界
专知会员服务
26+阅读 · 2024年11月24日
【CMU博士论文】多感官人工智能的基础
专知会员服务
40+阅读 · 2024年5月3日
【悉尼大学博士论文】深度3D信息预测与理解,184页pdf
专知会员服务
41+阅读 · 2022年12月27日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
微信扫码咨询专知VIP会员