从数据观测中学习物理世界的表征是现代人工智能(AI)的核心。早期的研究很大程度上依赖于显式的人工监督,而近期的进展则愈发倾向于利用弱监督形式来驱动表征学习。其中,利用共现观测(如同一场景的多模态或多视角数据)已成为一种极具影响力的范式,推动了多个领域的发展。然而,尽管取得了经验上的成功,自监督表征学习的全面理论理解仍然难以捉摸,这限制了在应对数据分布偏移(Distribution Shifts)及新问题迁移时,鲁棒表征学习方法的设计。 为弥补这一差距,本论文构建了理论解释,阐述了为何看似平凡的自监督目标函数能够产生远超其训练数据和目标范围的泛化能力。具体而言,我们探讨了在无限数据极限(Infinite-data Limit)下,优化自监督目标的解是否会收敛至等价表征。对于个体判别(Instance Discrimination),我们发现,若假设隐变量(Latents)分布在超球面的簇上,则区分个体观测值可以恢复出线性变换意义下的底层隐变量。在多模态设定中,我们证明了对比多模态观测对(Pairs of Multi-modal Observations)可以提取模态间的共享隐变量,并剔除模态特有信息。

基于上述理论见解,我们对现有的基于启发式的自监督算法进行了原则性(Principled)改进,旨在提升学习表征在数据分布偏移下的鲁棒性及其对新问题的迁移能力。首先,我们提出了主成分掩码自编码器(Principal Masked Autoencoder, PMAE),该模型通过重构随机掩码的主成分进行训练;实验表明,PMAE 在显著降低超参数调优成本的同时,提升了下游任务的性能。其次,我们提出了一种受对比学习启发的隐变量模型。研究发现,基于该模型推导出的**证据下界(ELBO)**提供了一个原则性的学习目标,在保留隐空间语义结构的同时,保留了生成等细粒度任务所需的必要信息。

通过深入调研自监督学习,本论文旨在阐明为何以及如何利用数据的内在结构来学习鲁棒且具迁移性的表征。通过**可识别性(Identifiability)**结果的推导及新型自监督学习方法的开发,本研究助力于设计仅需极小人工监督、且能在语言建模之外的真实世界数据集和任务中有效泛化的学习系统。

成为VIP会员查看完整内容
0

相关内容

自监督学习(self-supervised learning)可以被看作是机器学习的一种“理想状态”,模型直接从无标签数据中自行学习,无需标注数据。
【博士论文】自监督学习视频表示
专知会员服务
26+阅读 · 2024年2月5日
【ETHZ博士论文】在弱监督学习中施加和揭示群组结构
专知会员服务
21+阅读 · 2023年10月15日
【牛津大学博士论文】自监督学习视频理解,143页pdf
专知会员服务
40+阅读 · 2022年10月11日
【清华大学鲁继文副教授】无监督视觉表征学习
专知会员服务
27+阅读 · 2022年3月17日
【CVPR2021】背景鲁棒的自监督视频表征学习
专知会员服务
17+阅读 · 2021年3月13日
【斯坦福大学博士论文】自监督场景表示学习, 97页pdf
专知会员服务
96+阅读 · 2020年6月19日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
对比自监督学习
深度学习自然语言处理
35+阅读 · 2020年7月15日
【自监督学习】OpenAI科学家一文详解自监督学习
产业智能官
25+阅读 · 2020年3月18日
OpenAI科学家一文详解自监督学习
新智元
18+阅读 · 2019年11月20日
迁移自适应学习最新综述,附21页论文下载
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【博士论文】自监督学习视频表示
专知会员服务
26+阅读 · 2024年2月5日
【ETHZ博士论文】在弱监督学习中施加和揭示群组结构
专知会员服务
21+阅读 · 2023年10月15日
【牛津大学博士论文】自监督学习视频理解,143页pdf
专知会员服务
40+阅读 · 2022年10月11日
【清华大学鲁继文副教授】无监督视觉表征学习
专知会员服务
27+阅读 · 2022年3月17日
【CVPR2021】背景鲁棒的自监督视频表征学习
专知会员服务
17+阅读 · 2021年3月13日
【斯坦福大学博士论文】自监督场景表示学习, 97页pdf
专知会员服务
96+阅读 · 2020年6月19日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员