Frozen encoder--decoder language models are stateless: the latent representation is discarded after every forward pass, so no information persists across sessions. This paper presents a \textbf{proof-of-concept pilot study} showing that persistent memory in the \emph{continuous latent space} of a frozen LLM is feasible -- even under severe resource constraints (a single frozen Flan-T5-XL backbone, small trainable adapters, a single dataset). We implement six architectural methods spanning three injection points and four write mechanisms; unlike text-level memory systems, every write and read is a differentiable operation on dense vectors. After training only the adapter, the memory bank continues to accumulate at inference time without gradients, enabling \emph{conversational learning}. Under a forgetting-curve evaluation on LoCoMo at two capacity scales (1$\times$ and 10$\times$), the stateless baseline scores exactly zero; at 10$\times$ all six trained adapters produce positive memory-recall curves; at 1$\times$ three methods collapse, revealing capacity as a critical design parameter. Because the memory bank is a compact numerical array, it can be scaled to arbitrarily large capacity without altering the backbone. We argue that full end-to-end training with larger models, larger data, and orders-of-magnitude larger memory will yield substantially stronger results; this pilot study establishes the feasibility baseline and design-space taxonomy that such efforts require.


翻译:冻结的编码器-解码器语言模型是无状态的:每次前向传播后潜在表示即被丢弃,因此信息无法跨会话持续存在。本文提出一项**概念验证性先导研究**,表明在冻结大语言模型的**连续潜在空间**中实现持久性记忆是可行的——即使在严苛的资源限制下(单一冻结的Flan-T5-XL主干网络、小型可训练适配器、单一数据集)。我们实现了六种架构方法,涵盖三个注入点和四种写入机制;与文本级记忆系统不同,每次写入和读取都是对稠密向量的可微分操作。仅训练适配器后,记忆库在无需梯度的推理阶段持续积累,实现了**对话式学习**。通过在LoCoMo数据集上以两种容量规模(1$\times$和10$\times$)进行遗忘曲线评估,无状态基线得分恰好为零;在10$\times$容量下所有六种训练适配器均产生正向记忆召回曲线;在1$\times$容量下三种方法失效,表明容量是关键设计参数。由于记忆库是紧凑的数值阵列,其容量可扩展至任意规模而无需修改主干网络。我们认为,采用更大模型、更庞大数据及数量级更大记忆库的端到端完整训练将产生显著更强的结果;本先导研究为此类研究建立了必要的可行性基线及设计空间分类体系。

0
下载
关闭预览

相关内容

大语言模型持续学习:方法、挑战与机遇
专知会员服务
20+阅读 · 3月16日
稀疏自编码器综述:解释大语言模型的内部机制
专知会员服务
17+阅读 · 2025年12月27日
大语言模型机器遗忘综述
专知会员服务
18+阅读 · 2025年11月2日
什么是后训练?大语言模型训练后优化方法综述,87页pdf
大语言模型长文本训练技术解析
专知会员服务
37+阅读 · 2024年10月17日
Llama-3-SynE:实现有效且高效的大语言模型持续预训练
专知会员服务
36+阅读 · 2024年7月30日
大语言模型的终身学习综述
专知会员服务
76+阅读 · 2024年6月15日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
【干货】深入理解自编码器(附代码实现)
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月13日
VIP会员
最新内容
人工智能在战场行动中的演进及伊朗案例
专知会员服务
4+阅读 · 4月18日
美AI公司Anthropic推出网络安全模型“Mythos”
专知会员服务
2+阅读 · 4月18日
【博士论文】面向城市环境的可解释计算机视觉
大语言模型的自改进机制:技术综述与未来展望
《第四代军事特种作战部队选拔与评估》
专知会员服务
1+阅读 · 4月18日
相关VIP内容
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员