We develop a continual learning method for pretrained models that \emph{requires no access to old-task data}, addressing a practical barrier in foundation model adaptation where pretraining distributions are often unavailable. Our key observation is that pretrained networks exhibit substantial \emph{geometric redundancy}, and that this redundancy can be exploited in two complementary ways. First, redundant neurons provide a proxy for dominant pretraining-era feature directions, enabling the construction of approximately protected update subspaces directly from pretrained weights. Second, redundancy offers a natural bias for \emph{where} to place plasticity: by restricting updates to a subset of redundant neurons and constraining the remaining degrees of freedom, we obtain update families with reduced functional drift on the old-data distribution and improved worst-case retention guarantees. These insights lead to \textsc{PLATE} (\textbf{Pla}sticity-\textbf{T}unable \textbf{E}fficient Adapters), a continual learning method requiring no past-task data that provides explicit control over the plasticity-retention trade-off. PLATE parameterizes each layer with a structured low-rank update $ΔW = B A Q^\top$, where $B$ and $Q$ are computed once from pretrained weights and kept frozen, and only $A$ is trained on the new task. The code is available at https://github.com/SalesforceAIResearch/PLATE.


翻译:我们提出了一种无需访问旧任务数据的持续学习方法,解决了预训练模型适配中因预训练分布无法获取而面临的实践障碍。关键发现是:预训练网络存在显著的几何冗余,这种冗余可通过两种互补方式加以利用。首先,冗余神经元可作为预训练时期主导特征方向的代理,从而直接从预训练权重构建近似受保护的更新子空间。其次,冗余性为塑性部署位置提供了天然偏置——通过将更新限制在冗余神经元子集并约束剩余自由度,可获得在旧数据分布上功能漂移更小的更新族,并改善最坏情况下的记忆保持保证。基于这些洞见,我们提出PLATE(塑性可调高效适配器),一种无需过往任务数据、能显式调控塑性-记忆权衡的持续学习方法。PLATE通过结构化的低秩更新$ΔW = B A Q^\top$参数化每层网络,其中$B$和$Q$基于预训练权重一次性计算并冻结,仅$A$在新任务上训练。代码开源地址:https://github.com/SalesforceAIResearch/PLATE

0
下载
关闭预览

相关内容

在搭建网络模型时,需要随机初始化参数,然后开始训练网络,不断调整直到网络的损失越来越小。在训练的过程中,一开始初始化的参数会不断变化。当参数训练到比较好的时候就可以将训练模型的参数保存下来,以便训练好的模型可以在下次执行类似任务时获得较好的结果。
【CVPR2024】卷积提示"遇见了语言模型的持续学习
专知会员服务
18+阅读 · 2024年4月1日
【综述】持续学习与预训练模型综述
专知会员服务
55+阅读 · 2024年1月30日
持续学习:研究综述
专知会员服务
83+阅读 · 2023年1月30日
【牛津大学博士论文】持续学习的高效机器学习,213页pdf
专知会员服务
84+阅读 · 2022年10月19日
迁移学习在深度学习中的应用
专知
24+阅读 · 2017年12月24日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员