【ETZH博士论文】神经网络中的元学习与组合泛化

当环境变化致使既定目标难以实现时，生物体必须具备适应能力。若全然依赖生物进化来筛选更优的遗传程序，其过程将异常缓慢且低效。幸运的是，进化衍生出了“学习”机制，使个体能够基于经验调整行为，以胜任当前任务。就表象而言，学习仅指向单一任务能力的提升，且过程往往滞后。然而，人类频繁置身于全新情境，需不断重塑适应性。关键在于，新任务鲜有完全未知者；学习具有相似背景的任务通常事半功倍。这表明我们能够识别任务间的共有结构，形成泛化表征，并持续优化学习策略。本论文旨在探讨此类能力在神经网络中的实现机制。具体而言，我们聚焦于元学习（Meta-learning）——即在接触大量具有共享结构的任务过程中，优化学习算法本身的能力。此外，本文重点探究了任务间的一种特定结构属性：组合性（Compositionality），即通过少量核心组件的重新排列组合，生成多样化任务的能力。本文首先阐述了相关研究的数学基础，详细论证了神经网络中的元学习如何被形式化为层级优化问题（Hierarchical Optimization）或序列建模问题（Sequence Modeling）。随后，我们对任务族的“组合性”给出了形式化定义，并据此界定了组合泛化（Compositional Generalization）的研究目标。基于此背景，本文分为以下三个研究部分： 1. 算法层面： 提出了一种基于双层优化（Bilevel Optimization）的简洁且精确的元学习算法。相较于传统算法需进行反向传播时间梯度计算或二阶导数评估，该方法通过对比两次学习结果，利用局部元塑性规则（Meta-plasticity Rules）即可获取元梯度。 1. 架构层面： 研究了模块化架构（Modular Architectures）在捕捉任务族组合结构中的作用。本文从理论上刻画了超网络（Hypernetworks）——即为目标网络动态生成权重的神经网络——实现组合泛化的必要条件，并通过实验证明，在满足特定条件时，模块化架构而非**整体式架构（Monolithic Architectures）能够学习到具备组合泛化能力的策略。 1. 模型机制： 探讨了 Transformer 在处理序列化组合任务时的元学习表现。我们建立了 Transformer 的多头注意力机制（Multi-head Attention）与超网络之间的形式化联系。结果表明，Transformer 能够通过隐式超网络的潜码（Latent Code）**对操作进行重用与重组。实验验证显示，该功能性结构化的潜码能够有效预测模型在未知任务组合中所调用的子任务。

综上所述，本研究深化了对神经网络元学习与组合泛化能力的认知。最后，结合机器学习与神经科学的飞速进展，本文对该领域未来涌现的研究方向进行了展望。

成为VIP会员查看完整内容

相关内容

博士论文

关注 132

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

AAAI 2026 教程：神经网络演化研究 (Evolution of Neural Networks)

专知会员服务

17+阅读 · 1月24日

【博士论文】神经网络中的元学习与组合泛化

专知会员服务

20+阅读 · 2025年8月27日

【阿姆斯特丹博士论文】在测试时学习泛化

专知会员服务

12+阅读 · 2025年6月3日

【博士论文】通过学习可组合能量场景来学习可泛化系统

专知会员服务

14+阅读 · 2025年5月10日