We develop a continual learning method for pretrained models that \emph{requires no access to old-task data}, addressing a practical barrier in foundation model adaptation where pretraining distributions are often unavailable. Our key observation is that pretrained networks exhibit substantial \emph{geometric redundancy}, and that this redundancy can be exploited in two complementary ways. First, redundant neurons provide a proxy for dominant pretraining-era feature directions, enabling the construction of approximately protected update subspaces directly from pretrained weights. Second, redundancy offers a natural bias for \emph{where} to place plasticity: by restricting updates to a subset of redundant neurons and constraining the remaining degrees of freedom, we obtain update families with reduced functional drift on the old-data distribution and improved worst-case retention guarantees. These insights lead to \textsc{PLATE} (\textbf{Pla}sticity-\textbf{T}unable \textbf{E}fficient Adapters), a continual learning method requiring no past-task data that provides explicit control over the plasticity-retention trade-off. PLATE parameterizes each layer with a structured low-rank update $ΔW = B A Q^\top$, where $B$ and $Q$ are computed once from pretrained weights and kept frozen, and only $A$ is trained on the new task. The code is available at https://github.com/SalesforceAIResearch/PLATE.


翻译:我们提出了一种用于预训练模型的持续学习方法,该方法无需访问旧任务数据,解决了基础模型适应中的一个实际障碍,即预训练分布通常不可用。我们的关键观察是,预训练网络表现出显著的几何冗余性,并且这种冗余性可以通过两种互补的方式加以利用。首先,冗余神经元为预训练时代的主导特征方向提供了代理,从而能够直接从预训练权重构建近似受保护的更新子空间。其次,冗余性为塑性应放置于何处提供了天然的偏置:通过将更新限制在冗余神经元的子集内并约束剩余的自由度,我们获得了在旧数据分布上功能漂移减小且最坏情况保留保证得到改善的更新族。这些洞见催生了PLATE(可塑性可调高效适配器),这是一种无需过去任务数据的持续学习方法,它提供了对可塑性-保留权衡的显式控制。PLATE使用结构化低秩更新$ΔW = B A Q^\top$对每一层进行参数化,其中$B$和$Q$从预训练权重一次性计算并保持冻结,仅$A$在新任务上进行训练。代码可在https://github.com/SalesforceAIResearch/PLATE获取。

0
下载
关闭预览

相关内容

在搭建网络模型时,需要随机初始化参数,然后开始训练网络,不断调整直到网络的损失越来越小。在训练的过程中,一开始初始化的参数会不断变化。当参数训练到比较好的时候就可以将训练模型的参数保存下来,以便训练好的模型可以在下次执行类似任务时获得较好的结果。
【综述】持续学习与预训练模型综述
专知会员服务
54+阅读 · 2024年1月30日
持续学习:研究综述
专知会员服务
83+阅读 · 2023年1月30日
【牛津大学博士论文】持续学习的高效机器学习,213页pdf
专知会员服务
84+阅读 · 2022年10月19日
迁移学习在深度学习中的应用
专知
24+阅读 · 2017年12月24日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
VIP会员
相关VIP内容
【综述】持续学习与预训练模型综述
专知会员服务
54+阅读 · 2024年1月30日
持续学习:研究综述
专知会员服务
83+阅读 · 2023年1月30日
【牛津大学博士论文】持续学习的高效机器学习,213页pdf
专知会员服务
84+阅读 · 2022年10月19日
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员