The ability of machine learning models to store input information in hidden layer vector embeddings, analogous to the concept of `memory', is widely employed but not well characterized. We find that language model embeddings typically contain relatively little input information regardless of data and compute scale during training. In contrast, embeddings from autoencoders trained for input regeneration are capable of nearly perfect memory formation. The substitution of memory embeddings for token sequences leads to substantial computational efficiencies, motivating the introduction of a parallelizable encoder-decoder memory model architecture. Upon causal training these models contain information-poor embeddings incapable of arbitrary information access, but by combining causal and information retention objective functions they learn to form and decode information-rich memories. Training can be further streamlined by freezing a high fidelity encoder followed by a curriculum training approach where decoders first learn to process memories and then learn to additionally predict next tokens. We introduce the perspective that next token prediction training alone is poorly suited for accurate memory formation as the objective itself is non-invertible, motivating the use of combined objective functions for models where the entire input is not exposed.


翻译:机器学习模型将输入信息存储于隐藏层向量嵌入的能力——类似于“记忆”概念——被广泛采用但尚未得到充分表征。我们发现,无论训练过程中的数据规模与计算规模如何,语言模型嵌入通常仅包含相对较少的输入信息。相比之下,为输入重构而训练的自编码器能够实现近乎完美的记忆形成。用记忆嵌入替代词元序列可带来显著的计算效率提升,这促使我们提出一种可并行化的编码器-解码器记忆模型架构。经过因果训练后,这些模型会生成信息贫乏的嵌入,无法实现任意信息访问;但通过结合因果性与信息保留目标函数,模型能够学会构建并解码信息丰富的记忆。通过冻结高保真编码器并采用课程训练策略(解码器先学习处理记忆,再学习额外预测下一词元),可进一步优化训练流程。我们提出以下观点:仅依赖下一词元预测训练本身难以形成精确记忆,因为该目标函数本身不可逆,这为需要处理非完全输入暴露的模型采用组合目标函数提供了理论依据。

0
下载
关闭预览

相关内容

【NTU博士论文】让语言模型成为更类人的学习者
专知会员服务
23+阅读 · 2025年9月23日
【博士论文】面向数据的语言生成模型研究
专知会员服务
24+阅读 · 2025年1月19日
大型语言模型:原理、实现与发展
专知会员服务
102+阅读 · 2023年11月28日
专知会员服务
51+阅读 · 2021年9月25日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
NLP预训练模型大集合!
机器之心
21+阅读 · 2018年12月28日
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
13+阅读 · 2018年12月23日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月2日
VIP会员
相关资讯
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员