如今,大语言模型通过上下文内学习与记忆来适应用户和新环境——也即模型能够从即时传入的信息中学习,并记住这些信息。然而,由于注意力机制这一现代语言模型架构中的核心算子,随着用户提供的信息越来越多,上下文内学习会变得极其低效,并最终出现失效。在本论文中,我考察了支配上下文内学习与记忆的基本质量—效率权衡:模型的上下文内学习能力与其消耗的空间和计算量之间存在怎样的关系?

我首先分析了一大类更高效、无注意力的语言模型架构,这些架构基于卷积。尽管它们使用更少的计算和空间,但我发现,这些经典架构在上下文内学习与记忆方面表现困难,因为它们缺乏注意力机制所具有的输入依赖型序列混合能力。接下来,受这些洞见启发,我提出了一种基于线性注意力的简单输入依赖型架构,该架构能够以与上下文长度无关的空间开销生成文本。借助这一架构,我展示了我们可以通过简单地改变控制模型空间消耗的超参数,沿着质量—空间帕累托前沿进行权衡。然而,我发现,如果空间消耗显著低于注意力机制所需的空间,上下文内学习能力就会退化。

最后,为了在不损害质量的情况下降低空间消耗,我提出了一种称为自学习(self-study)的技术:它利用空间开销很大的上下文内记忆作为教师,训练一个小型记忆卡匣(memory cartridge),从而实质上以增加计算量为代价换取空间消耗的降低。借助该技术,我表明,在不损害上下文内学习能力的情况下,我们可以将记忆消耗降低 1–3 个数量级。这在长上下文会被多个查询共享、且其处理成本可以摊销的场景中非常有吸引力。总体而言,本论文系统描绘了上下文内学习的效率—质量权衡空间,为构建更加个性化、易获取且高效的 AI 铺平了道路。

成为VIP会员查看完整内容
13

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
10+阅读 · 5月28日
【博士论文】基于多模态基础模型的上下文学习
专知会员服务
24+阅读 · 2025年12月17日
《语言模型的推理时间学习算法》162页博士论文
专知会员服务
16+阅读 · 2025年11月23日
【斯坦福博士论文】在复杂环境中决策学习内容
专知会员服务
34+阅读 · 2025年4月14日
【ICML2022】基于自适应上下文池化的高效表示学习
专知会员服务
20+阅读 · 2022年7月9日
【MIT博士论文】数据高效强化学习,176页pdf
注意力机制综述(中文版)
专知
23+阅读 · 2021年1月26日
【干货】注意力机制(Attention)最新综述论文及相关源码
GAN生成式对抗网络
11+阅读 · 2018年11月16日
深度学习中的注意力机制
人工智能头条
16+阅读 · 2017年11月2日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员