Continual learning in artificial neural networks is fundamentally limited by the stability--plasticity dilemma: systems that retain prior knowledge tend to resist acquiring new knowledge, and vice versa. Existing approaches, most notably elastic weight consolidation~(EWC), address this empirically without a physical account of why plasticity eventually collapses as tasks accumulate. Separately, the distinction between sudden insight and gradual skill acquisition through repetitive practice has lacked a unified theoretical description. Here, we show that both problems admit a common resolution within non-equilibrium statistical physics. We model the state of a learning system as a particle evolving under Langevin dynamics on a double-well energy landscape, with the noise amplitude governed by a time-dependent effective temperature $T(t)$. The probability density obeys a Fokker--Planck equation, and transitions between metastable states are governed by the Kramers escape rate $k = (ω_0ω_b/2π)\,e^{-ΔE/T}$. We make two contributions. First, we identify the EWC penalty term as an energy barrier whose height grows linearly with the number of accumulated tasks, yielding an exponential collapse of the transition rate predicted analytically and confirmed numerically. Second, we show that insight and repetitive learning correspond to two qualitatively distinct temperature protocols within the same Fokker--Planck equation: insight events produce transient spikes in $T(t)$ that drive rapid barrier crossing, whereas repetitive practice operates at a modestly elevated but fixed temperature, achieving transitions through sustained stochastic diffusion. These results establish a physically grounded framework for understanding plasticity and its failure in continual learning systems, and suggest principled design criteria for adaptive noise schedules in artificial intelligence.


翻译:人工神经网络中的持续学习从根本上受限于稳定性-可塑性困境:保留先前知识的系统往往抗拒获取新知识,反之亦然。现有方法(最显著的是弹性权重巩固(EWC)虽在经验上解决了这一问题,但缺乏对任务累积后可塑性为何最终崩溃的物理学解释。此外,顿悟与通过重复练习逐步习得技能之间的区别,一直缺乏统一的理论描述。本文证明这两个问题在非平衡统计物理学中具有共同的解决方案。我们将学习系统的状态建模为在双阱能量景观上遵循朗之万动力学演化的粒子,其噪声幅度由随时间变化的有效温度$T(t)$控制。概率密度满足福克-普朗克方程,亚稳态之间的跃迁由克莱默斯逃逸速率$k = (ω_0ω_b/2π)\,e^{-ΔE/T}$主导。我们做出两项贡献:首先,识别出EWC惩罚项为能量势垒,其高度随累积任务数量线性增长,从而在解析预测和数值验证中呈现出跃迁速率的指数级崩溃。其次,我们证明洞察与重复学习对应于同一福克-普朗克方程中两种性质截然不同的温度协议:洞察事件在$T(t)$中产生瞬时尖峰,驱动快速势垒穿越;而重复练习则在适度升高但恒定的温度下运行,通过持续随机扩散实现跃迁。这些结果为理解持续学习系统中的可塑性及其失效建立了物理基础框架,并为人工智能中自适应噪声调度提出了基于原理的设计准则。

0
下载
关闭预览

相关内容

专知会员服务
23+阅读 · 2021年9月30日
【Cell 2020】神经网络中的持续学习
专知会员服务
62+阅读 · 2020年11月7日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
【Uber AI新论文】持续元学习,Learning to Continually Learn
专知会员服务
37+阅读 · 2020年2月27日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
VIP会员
最新内容
综述 | 从问答到任务完成:Agent系统与Harness设计
专知会员服务
1+阅读 · 今天16:54
Agentic RL:框架、实践与长程智能体训练
专知会员服务
1+阅读 · 今天16:52
重新思考无人机时代的生存能力
专知会员服务
5+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
4+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
6+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员