Large Language Models (LLMs) must continuously learn and update knowledge to remain effective in dynamic real-world environments. While Low-Rank Adaptation (LoRA) is widely used for such memory updates, existing studies mainly rely on qualitative downstream evaluations, leaving the quantitative capacity limits and underlying dynamics of exact parametric memory largely unexplored. To bridge this gap, we employ LoRA as a controlled memory capacity probe within the latent space to systematically quantify exact parametric memory. We introduce the Parametric Memory Law, a robust power law linking loss reduction Delta L to effective parameters and sequence length. At the token level, fine-grained analysis reveals a deterministic phase transition, demonstrating that a prediction probability of p > 0.5 constitutes a sufficient condition for verbatim recall under greedy decoding. Driven by these insights, we introduce MemFT, a threshold-guided optimization strategy that dynamically redistributes the training budget toward sub-threshold tokens. Empirical evaluations demonstrate that MemFT can enhance memory fidelity and efficiency. Code will be released at https://github.com/zjunlp/ParametricMemoryLaw.


翻译:大型语言模型(LLMs)需持续学习与更新知识,以在动态真实环境中保持有效性。尽管低秩自适应(LoRA)被广泛用于此类记忆更新,现有研究主要依赖定性下游评估,对精确参数化记忆的量化容量上限及底层动力学机制尚缺乏探索。为弥补这一空白,我们采用LoRA作为潜空间中的可控记忆容量探针,系统性地量化精确参数化记忆。我们提出参数化记忆定律(Parametric Memory Law),该稳健的幂律将损失降低量ΔL与有效参数及序列长度相关联。在词元级别,细粒度分析揭示了确定性相变:在贪心解码条件下,预测概率p>0.5构成逐字回忆的充分条件。基于这些发现,我们引入MemFT——一种阈值引导的优化策略,将训练预算动态重分配给低于阈值的词元。实验评估表明,MemFT可增强记忆保真度与效率。代码将发布于https://github.com/zjunlp/ParametricMemoryLaw。

0
下载
关闭预览

相关内容

【ICLR2025】RANDLORA: 全秩参数高效微调大规模模型
专知会员服务
15+阅读 · 2025年2月4日
大语言模型的LoRA研究综述
专知会员服务
55+阅读 · 2024年7月17日
图机器学习经典算法 louvain 完全解读
图与推荐
11+阅读 · 2020年8月10日
如何区分并记住常见的几种 Normalization 算法
极市平台
19+阅读 · 2019年7月24日
强化学习三篇论文 避免遗忘等
CreateAMind
20+阅读 · 2019年5月24日
深度学习中Attention Mechanism详细介绍:原理、分类及应用
深度学习与NLP
10+阅读 · 2019年2月18日
【学生论坛】详解记忆增强神经网络
中国科学院自动化研究所
106+阅读 · 2018年11月15日
RASNet 论文笔记
统计学习与视觉计算组
10+阅读 · 2018年4月26日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 世界动作模型:少做梦,多行动
专知会员服务
0+阅读 · 3分钟前
美以伊冲突:无人机与人工智能的运用
专知会员服务
1+阅读 · 15分钟前
《特种部队在透明战场中的生存力》最新报告
专知会员服务
1+阅读 · 35分钟前
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
相关资讯
图机器学习经典算法 louvain 完全解读
图与推荐
11+阅读 · 2020年8月10日
如何区分并记住常见的几种 Normalization 算法
极市平台
19+阅读 · 2019年7月24日
强化学习三篇论文 避免遗忘等
CreateAMind
20+阅读 · 2019年5月24日
深度学习中Attention Mechanism详细介绍:原理、分类及应用
深度学习与NLP
10+阅读 · 2019年2月18日
【学生论坛】详解记忆增强神经网络
中国科学院自动化研究所
106+阅读 · 2018年11月15日
RASNet 论文笔记
统计学习与视觉计算组
10+阅读 · 2018年4月26日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员