神经网络因其超越训练数据的泛化能力,在广泛的应用领域中表现卓越。然而,在缺乏大规模数据的情况下,神经网络在处理高维任务时性能往往会下降,这一挑战被称为维数灾难(curse of dimensionality)。本论文旨在通过追求三个核心目标,深入理解并提升神经网络的泛化性能,从而应对这一局限性。 1. 研究神经网络泛化的比例法则(Scaling Laws):包括双下降(double descent)现象,即随着模型容量或训练数据的增加,测试误差在持续下降之前会经历一个暂时上升的阶段。具体而言,我们将设定两个目标:1) 进一步明确在何种实证条件下可以观测到双下降现象;2) 深入理解泛化性能相对于训练时间的比例法则。 1. 归纳偏置(Inductive Bias)的量化研究:归纳偏置是指学习算法为了预测未见输入而做出的一系列假设。我们提出量化在固定训练数据量下,模型实现良好泛化所需的归纳偏置程度。通过开发衡量归纳偏置的方法,我们可以评估模型设计者需要向神经网络中融入多少先验信息以提升其泛化能力。这种量化方法可以指导设计更具挑战性的任务,从而更好地测试模型的泛化性能。 1. 开发提升神经网络泛化的新方法:重点关注减少高维任务中所需的呈指数级增长的训练样本量。这涉及通过引入更强的归纳偏置,构建能够从有限数据中高效学习的算法与架构。具体而言,我们将侧重于两种归纳偏置:1) 学习与泛化性能相关的训练损失地形(training loss landscape)特征;2) 采用模块化神经网络架构(modular neural network architectures)。我们预期这些技术能够显著改善泛化表现,尤其是在高维任务中。
综上所述,这些贡献旨在深化我们的理论认知,并开发实用工具,使神经网络能够在有限数据下实现有效的泛化。