【CMU博士论文】物理世界的视觉感知与深度理解

我们生活在三维物理世界中，而迈向通用人工智能（AGI）的第一步是使机器具备理解物理世界的能力。本文以此为目标，围绕三个主题展开研究：（1）遮挡理解与遮挡处理；（2）场景的三维及物理属性理解；（3）视觉理解与语言的桥接。针对所有主题，我们均基于大规模预训练模型或其表征构建方法。

在遮挡理解与处理方面，我们为传统的预训练目标检测器设计了一种三层插件（tri-layer plugin），以提升遮挡场景下的目标检测与实例分割性能。作为在遮挡处理领域的额外贡献，我们通过利用预训练 Stable Diffusion 模型的先验知识，改进了非遮挡完成（amodal completion）模型，实现了对遮挡物体完整形状的恢复。

在三维物理理解方面，我们首先研究图像中的静态三维物理属性。为此，我们设定了一套协议，旨在探测（probe）大规模预训练视觉基础模型对这类属性的理解能力。此外，我们还研究了视频中的动态三维物理属性，并探索了利用不同类型的大规模预训练视频基础模型来预测这些属性。在视觉-语言理解方面，我们专注于改进视觉-语言基础模型。针对类 CLIP 的大规模预训练模型，我们通过为视觉编码器引入一种基于文本条件的“可学习提示词”（learnable prompt），提升了其在文到图检索任务中的性能；针对类 ChatGPT 的大规模预训练模型，我们通过赋予小模型多模态推理能力，提升了其在视觉定位（visual grounding）任务中的性能与效率。

关键词： 场景理解，遮挡处理，三维物理属性，基础模型，视觉-语言模型

成为VIP会员查看完整内容

相关内容

博士论文

关注 130

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【CMU博士论文】迈向基于基础先验的 4D 感知研究

专知会员服务

8+阅读 · 4月19日

【CMU博士论文】迈向可扩展的开放世界三维感知

专知会员服务

10+阅读 · 4月17日

【CMU博士论文】迈向具备基础先验的四维感知

专知会员服务

15+阅读 · 2025年11月2日

【NTU博士论文】面向高效感知与可扩展生成的三维物理世界

专知会员服务

12+阅读 · 2025年10月3日