3D 感知是现代机器智能的基石,为自动驾驶、机器人技术和空间理解等关键应用提供了底层支撑。在众多 3D 数据表示中,点云能够提供物理世界最直接且几何信息丰富的描述;然而,点云固有的稀疏性、非均匀采样以及高昂的标注成本,对感知性能造成了根本性限制。在传统的 3D 学习范式中,占主导地位的闭集假设(Closed-set assumptions)和静态分类体系(Static taxonomies)进一步加剧了这些挑战。本博士论文探讨了如何学习有效的点云表示,以克服上述局限性,并推动稳健、可扩展的 3D 感知技术发展。 本论文从四个互补的维度对这一课题展开了研究。首先,论文研究了不同的场景表示如何编码截然不同的归纳偏置(Inductive priors),并证明了它们的集成可以显著提升城市级点云的语义分割性能。其次,为了缓解数据稀疏性并降低标注需求,提出了一种自监督时空预训练框架,该框架充分利用了激光雷达(LiDAR)序列中的时间连续性。 第三,论文超越了开放词汇感知(Open-vocabulary perception),引入了 3D 自动词汇分割(3D Auto-Vocabulary Segmentation) 任务,使系统能够在没有人工提供类别定义的情况下,主动发现、命名并分割语义实体。最后,论文探讨了如何将动态生成的场景特定词汇作为监督信号,以减轻类别暴露偏差(Category exposure bias),并提升大规模自动标注数据集上的开放词汇 3D 分割性能。 综上所述,本研究通过多模态融合、时空建模、自主语义发现以及生成式监督,推进了点云表示学习的发展,为构建更具扩展性和稳健性的 3D 感知系统做出了贡献。
https://hdl.handle.net/11245.1/c7e0637e-f623-45e0-9690-3d4516bb8d58