从数据观测中学习物理世界的表征是现代人工智能(AI)的核心。早期的研究很大程度上依赖于显式的人工监督,而近期的进展则愈发倾向于利用弱监督形式来驱动表征学习。其中,利用共现观测(如同一场景的多模态或多视角数据)已成为一种极具影响力的范式,推动了多个领域的发展。然而,尽管取得了经验上的成功,自监督表征学习的全面理论理解仍然难以捉摸,这限制了在应对数据分布偏移(Distribution Shifts)及新问题迁移时,鲁棒表征学习方法的设计。 为弥补这一差距,本论文构建了理论解释,阐述了为何看似平凡的自监督目标函数能够产生远超其训练数据和目标范围的泛化能力。具体而言,我们探讨了在无限数据极限(Infinite-data Limit)下,优化自监督目标的解是否会收敛至等价表征。对于个体判别(Instance Discrimination),我们发现,若假设隐变量(Latents)分布在超球面的簇上,则区分个体观测值可以恢复出线性变换意义下的底层隐变量。在多模态设定中,我们证明了对比多模态观测对(Pairs of Multi-modal Observations)可以提取模态间的共享隐变量,并剔除模态特有信息。
基于上述理论见解,我们对现有的基于启发式的自监督算法进行了原则性(Principled)改进,旨在提升学习表征在数据分布偏移下的鲁棒性及其对新问题的迁移能力。首先,我们提出了主成分掩码自编码器(Principal Masked Autoencoder, PMAE),该模型通过重构随机掩码的主成分进行训练;实验表明,PMAE 在显著降低超参数调优成本的同时,提升了下游任务的性能。其次,我们提出了一种受对比学习启发的隐变量模型。研究发现,基于该模型推导出的**证据下界(ELBO)**提供了一个原则性的学习目标,在保留隐空间语义结构的同时,保留了生成等细粒度任务所需的必要信息。
通过深入调研自监督学习,本论文旨在阐明为何以及如何利用数据的内在结构来学习鲁棒且具迁移性的表征。通过**可识别性(Identifiability)**结果的推导及新型自监督学习方法的开发,本研究助力于设计仅需极小人工监督、且能在语言建模之外的真实世界数据集和任务中有效泛化的学习系统。