我们生活在三维物理世界中,而迈向通用人工智能(AGI)的第一步是使机器具备理解物理世界的能力。本文以此为目标,围绕三个主题展开研究:(1)遮挡理解与遮挡处理;(2)场景的三维及物理属性理解;(3)视觉理解与语言的桥接。针对所有主题,我们均基于大规模预训练模型或其表征构建方法。
在遮挡理解与处理方面,我们为传统的预训练目标检测器设计了一种三层插件(tri-layer plugin),以提升遮挡场景下的目标检测与实例分割性能。作为在遮挡处理领域的额外贡献,我们通过利用预训练 Stable Diffusion 模型的先验知识,改进了非遮挡完成(amodal completion)模型,实现了对遮挡物体完整形状的恢复。
在三维物理理解方面,我们首先研究图像中的静态三维物理属性。为此,我们设定了一套协议,旨在探测(probe)大规模预训练视觉基础模型对这类属性的理解能力。此外,我们还研究了视频中的动态三维物理属性,并探索了利用不同类型的大规模预训练视频基础模型来预测这些属性。 在视觉-语言理解方面,我们专注于改进视觉-语言基础模型。针对类 CLIP 的大规模预训练模型,我们通过为视觉编码器引入一种基于文本条件的“可学习提示词”(learnable prompt),提升了其在文到图检索任务中的性能;针对类 ChatGPT 的大规模预训练模型,我们通过赋予小模型多模态推理能力,提升了其在视觉定位(visual grounding)任务中的性能与效率。
关键词: 场景理解,遮挡处理,三维物理属性,基础模型,视觉-语言模型