Language Model Memory and Memory Models for Language - 专知论文

会员服务 ·

0

嵌入 · 词元 · 解码 · 目标函数 · 语言模型 ·

Language Model Memory and Memory Models for Language

翻译：语言模型记忆与面向语言的记忆模型

Benjamin L. Badger

The ability of machine learning models to store input information in hidden layer vector embeddings, analogous to the concept of `memory', is widely employed but not well characterized. We find that language model embeddings typically contain relatively little input information regardless of data and compute scale during training. In contrast, embeddings from autoencoders trained for input regeneration are capable of nearly perfect memory formation. The substitution of memory embeddings for token sequences leads to substantial computational efficiencies, motivating the introduction of a parallelizable encoder-decoder memory model architecture. Upon causal training these models contain information-poor embeddings incapable of arbitrary information access, but by combining causal and information retention objective functions they learn to form and decode information-rich memories. Training can be further streamlined by freezing a high fidelity encoder followed by a curriculum training approach where decoders first learn to process memories and then learn to additionally predict next tokens. We introduce the perspective that next token prediction training alone is poorly suited for accurate memory formation as the objective itself is non-invertible, motivating the use of combined objective functions for models where the entire input is not exposed.

翻译：机器学习模型将输入信息存储于隐藏层向量嵌入的能力——类似于“记忆”概念——被广泛采用但尚未得到充分表征。我们发现，无论训练过程中的数据规模与计算规模如何，语言模型嵌入通常仅包含相对较少的输入信息。相比之下，为输入重构而训练的自编码器能够实现近乎完美的记忆形成。用记忆嵌入替代词元序列可带来显著的计算效率提升，这促使我们提出一种可并行化的编码器-解码器记忆模型架构。经过因果训练后，这些模型会生成信息贫乏的嵌入，无法实现任意信息访问；但通过结合因果性与信息保留目标函数，模型能够学会构建并解码信息丰富的记忆。通过冻结高保真编码器并采用课程训练策略（解码器先学习处理记忆，再学习额外预测下一词元），可进一步优化训练流程。我们提出以下观点：仅依赖下一词元预测训练本身难以形成精确记忆，因为该目标函数本身不可逆，这为需要处理非完全输入暴露的模型采用组合目标函数提供了理论依据。

0

相关内容

【牛津博士论文】面向视觉、物理与语言应用的可信机器学习模型

【牛津博士论文】面向视觉、物理与语言应用的可信机器学习模型

专知会员服务

19+阅读 · 2025年10月5日

【NTU博士论文】让语言模型成为更类人的学习者

【NTU博士论文】让语言模型成为更类人的学习者

专知会员服务

23+阅读 · 2025年9月23日

面向视觉语言模型的持续学习：遗忘之外的综述与分类体系

面向视觉语言模型的持续学习：遗忘之外的综述与分类体系

专知会员服务

21+阅读 · 2025年8月9日

【博士论文】面向数据的语言生成模型研究

【博士论文】面向数据的语言生成模型研究

专知会员服务

24+阅读 · 2025年1月19日

大型语言模型：原理、实现与发展

大型语言模型：原理、实现与发展

专知会员服务

102+阅读 · 2023年11月28日

《预训练具有信息性事实知识和专业知识库的军事语言表示模型》南京理工等

《预训练具有信息性事实知识和专业知识库的军事语言表示模型》南京理工等

专知会员服务

58+阅读 · 2023年4月21日

知识在大模型中如何用？中科院软件所最新《大型语言模型知识生命周期》综述，27页pdf阐述知识获取、表示、探测、编辑与应用

知识在大模型中如何用？中科院软件所最新《大型语言模型知识生命周期》综述，27页pdf阐述知识获取、表示、探测、编辑与应用

专知会员服务

88+阅读 · 2023年3月17日

【香港科技大学等】视觉-语言智能:任务、表示学习和大模型，Vision-Language Intelligence: Tasks, Representation Learning, and Large Models

【香港科技大学等】视觉-语言智能:任务、表示学习和大模型，Vision-Language Intelligence: Tasks, Representation Learning, and Large Models

专知会员服务

44+阅读 · 2022年3月8日

知识感知的预训练语言模型综述

专知会员服务

51+阅读 · 2021年9月25日

语言视觉预训练语言模型揭密，Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models

语言视觉预训练语言模型揭密，Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models

专知会员服务

36+阅读 · 2020年5月20日

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

【新书】机器学习算法，模型与应用，154页pdf

【新书】机器学习算法，模型与应用，154页pdf

专知

24+阅读 · 2022年1月20日

【新书】自然语言处理嵌入：语义向量表示理论与进展，从Word2Vec到BERT，163页pdf

【新书】自然语言处理嵌入：语义向量表示理论与进展，从Word2Vec到BERT，163页pdf

专知

23+阅读 · 2020年4月4日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

NLP预训练模型大集合！

NLP预训练模型大集合！

机器之心

21+阅读 · 2018年12月28日

深度学习时代的图模型，清华发文综述图网络

深度学习时代的图模型，清华发文综述图网络

GAN生成式对抗网络

13+阅读 · 2018年12月23日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

【干货】NLP中“词袋”模型和词嵌入模型的比较（附代码）

【干货】NLP中“词袋”模型和词嵌入模型的比较（附代码）

专知

11+阅读 · 2018年8月4日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

循环神经网络多模态深度模型联想记忆功能研究

国家自然科学基金

6+阅读 · 2017年12月31日

面向人类工作记忆改善的脑电复杂网络信息反馈非线性计算模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

一对多联想记忆中的细胞神经网络建模及参数获取方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于记忆的不变图像特征学习方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于记忆学习与免疫系统的仿生控制研究

国家自然科学基金

7+阅读 · 2015年12月31日

学习与记忆的神经动力学研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

Model Merging in the Era of Large Language Models: Methods, Applications, and Future Directions

Arxiv

0+阅读 · 3月10日

Grounding Synthetic Data Generation With Vision and Language Models

Arxiv

0+阅读 · 3月10日

MEM: Multi-Scale Embodied Memory for Vision Language Action Models

Arxiv

0+阅读 · 3月8日

ParamMem: Augmenting Language Agents with Parametric Reflective Memory

Arxiv

0+阅读 · 2月26日

Language and Experience: A Computational Model of Social Learning in Complex Tasks

Arxiv

0+阅读 · 2月18日

Improving MLLMs in Embodied Exploration and Question Answering with Human-Inspired Memory Modeling

Arxiv

0+阅读 · 2月17日

Language Modeling and Understanding Through Paraphrase Generation and Detection

Arxiv

0+阅读 · 2月15日

Object-Oriented Transition Modeling with Inductive Logic Programming

Arxiv

0+阅读 · 2月7日

Sentence Curve Language Models

Arxiv

0+阅读 · 2月2日

Fine-Tuning Language Models to Know What They Know

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

速度优先于谨慎：NSPM-11意味着什么（将人工智能融入美国国防和情报行动最全面的声明）

速度优先于谨慎：NSPM-11意味着什么（将人工智能融入美国国防和情报行动最全面的声明）

专知会员服务

6+阅读 · 6月10日

《基于深度强化学习的反无人机技术研究》178页

《基于深度强化学习的反无人机技术研究》178页

专知会员服务

3+阅读 · 6月10日

技术突破与战略优势竞争：美军人工智能技术运用阶段分析

技术突破与战略优势竞争：美军人工智能技术运用阶段分析

专知会员服务

4+阅读 · 6月10日

“史诗怒火”行动与“AI中心战”模式的浮现

“史诗怒火”行动与“AI中心战”模式的浮现

专知会员服务

4+阅读 · 6月10日

【CVPR2026教程】扩散模型的解析理解

【CVPR2026教程】扩散模型的解析理解

专知会员服务

0+阅读 · 6月10日

【CVPR2026教程】从感知到模拟：多模态推理中世界模型的涌现

【CVPR2026教程】从感知到模拟：多模态推理中世界模型的涌现

专知会员服务

1+阅读 · 6月10日

马赛克战：俄乌战场透析

马赛克战：俄乌战场透析

专知会员服务

14+阅读 · 6月10日

《利用人工智能增强军事决策》

《利用人工智能增强军事决策》

专知会员服务

6+阅读 · 6月10日

《自动机器学习在军事数据耕耘法中的应用》

《自动机器学习在军事数据耕耘法中的应用》

专知会员服务

8+阅读 · 6月10日

为何指挥所生存能力要求范式转变

为何指挥所生存能力要求范式转变

专知会员服务

5+阅读 · 6月10日

打造“新蛛网”模式与高科技动员

打造“新蛛网”模式与高科技动员

专知会员服务

4+阅读 · 6月10日

“蛛网”行动一周年：远程无人机战争

“蛛网”行动一周年：远程无人机战争

专知会员服务

3+阅读 · 6月10日

加沙、乌克兰和伊朗冲突：人工智能如何改变冲突

加沙、乌克兰和伊朗冲突：人工智能如何改变冲突

专知会员服务

3+阅读 · 6月10日

为何“第一次人工智能战争（美以伊冲突）”仍是人类主导的斗争

为何“第一次人工智能战争（美以伊冲突）”仍是人类主导的斗争

专知会员服务

3+阅读 · 6月10日

【剑桥博士论文】智能体-环境协同优化

【剑桥博士论文】智能体-环境协同优化

专知会员服务

9+阅读 · 6月9日

相关VIP内容

【牛津博士论文】面向视觉、物理与语言应用的可信机器学习模型

【牛津博士论文】面向视觉、物理与语言应用的可信机器学习模型

专知会员服务

19+阅读 · 2025年10月5日

【NTU博士论文】让语言模型成为更类人的学习者

【NTU博士论文】让语言模型成为更类人的学习者

专知会员服务

23+阅读 · 2025年9月23日

面向视觉语言模型的持续学习：遗忘之外的综述与分类体系

面向视觉语言模型的持续学习：遗忘之外的综述与分类体系

专知会员服务

21+阅读 · 2025年8月9日

【博士论文】面向数据的语言生成模型研究

【博士论文】面向数据的语言生成模型研究

专知会员服务

24+阅读 · 2025年1月19日

大型语言模型：原理、实现与发展

大型语言模型：原理、实现与发展

专知会员服务

102+阅读 · 2023年11月28日

《预训练具有信息性事实知识和专业知识库的军事语言表示模型》南京理工等

《预训练具有信息性事实知识和专业知识库的军事语言表示模型》南京理工等

专知会员服务

58+阅读 · 2023年4月21日

知识在大模型中如何用？中科院软件所最新《大型语言模型知识生命周期》综述，27页pdf阐述知识获取、表示、探测、编辑与应用

知识在大模型中如何用？中科院软件所最新《大型语言模型知识生命周期》综述，27页pdf阐述知识获取、表示、探测、编辑与应用

专知会员服务

88+阅读 · 2023年3月17日

【香港科技大学等】视觉-语言智能:任务、表示学习和大模型，Vision-Language Intelligence: Tasks, Representation Learning, and Large Models

【香港科技大学等】视觉-语言智能:任务、表示学习和大模型，Vision-Language Intelligence: Tasks, Representation Learning, and Large Models

专知会员服务

44+阅读 · 2022年3月8日

知识感知的预训练语言模型综述

专知会员服务

51+阅读 · 2021年9月25日

语言视觉预训练语言模型揭密，Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models

语言视觉预训练语言模型揭密，Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models

专知会员服务

36+阅读 · 2020年5月20日

热门VIP内容

开通专知VIP会员享更多权益服务

《基于深度强化学习的反无人机技术研究》178页

“史诗怒火”行动与“AI中心战”模式的浮现

速度优先于谨慎：NSPM-11意味着什么（将人工智能融入美国国防和情报行动最全面的声明）

技术突破与战略优势竞争：美军人工智能技术运用阶段分析

相关资讯

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

【新书】机器学习算法，模型与应用，154页pdf

【新书】机器学习算法，模型与应用，154页pdf

专知

24+阅读 · 2022年1月20日

【新书】自然语言处理嵌入：语义向量表示理论与进展，从Word2Vec到BERT，163页pdf

【新书】自然语言处理嵌入：语义向量表示理论与进展，从Word2Vec到BERT，163页pdf

专知

23+阅读 · 2020年4月4日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

NLP预训练模型大集合！

NLP预训练模型大集合！

机器之心

21+阅读 · 2018年12月28日

深度学习时代的图模型，清华发文综述图网络

深度学习时代的图模型，清华发文综述图网络

GAN生成式对抗网络

13+阅读 · 2018年12月23日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

【干货】NLP中“词袋”模型和词嵌入模型的比较（附代码）

【干货】NLP中“词袋”模型和词嵌入模型的比较（附代码）

专知

11+阅读 · 2018年8月4日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

Model Merging in the Era of Large Language Models: Methods, Applications, and Future Directions

Arxiv

0+阅读 · 3月10日

Grounding Synthetic Data Generation With Vision and Language Models

Arxiv

0+阅读 · 3月10日

MEM: Multi-Scale Embodied Memory for Vision Language Action Models

Arxiv

0+阅读 · 3月8日

ParamMem: Augmenting Language Agents with Parametric Reflective Memory

Arxiv

0+阅读 · 2月26日

Language and Experience: A Computational Model of Social Learning in Complex Tasks

Arxiv

0+阅读 · 2月18日

Improving MLLMs in Embodied Exploration and Question Answering with Human-Inspired Memory Modeling

Arxiv

0+阅读 · 2月17日

Language Modeling and Understanding Through Paraphrase Generation and Detection

Arxiv

0+阅读 · 2月15日

Object-Oriented Transition Modeling with Inductive Logic Programming

Arxiv

0+阅读 · 2月7日

Sentence Curve Language Models

Arxiv

0+阅读 · 2月2日

Fine-Tuning Language Models to Know What They Know

Arxiv

0+阅读 · 2月2日

相关基金

循环神经网络多模态深度模型联想记忆功能研究

国家自然科学基金

6+阅读 · 2017年12月31日

面向人类工作记忆改善的脑电复杂网络信息反馈非线性计算模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

一对多联想记忆中的细胞神经网络建模及参数获取方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于记忆的不变图像特征学习方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于记忆学习与免疫系统的仿生控制研究

国家自然科学基金

7+阅读 · 2015年12月31日

学习与记忆的神经动力学研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员