如今,大语言模型通过上下文内学习与记忆来适应用户和新环境——也即模型能够从即时传入的信息中学习,并记住这些信息。然而,由于注意力机制这一现代语言模型架构中的核心算子,随着用户提供的信息越来越多,上下文内学习会变得极其低效,并最终出现失效。在本论文中,我考察了支配上下文内学习与记忆的基本质量—效率权衡:模型的上下文内学习能力与其消耗的空间和计算量之间存在怎样的关系?
我首先分析了一大类更高效、无注意力的语言模型架构,这些架构基于卷积。尽管它们使用更少的计算和空间,但我发现,这些经典架构在上下文内学习与记忆方面表现困难,因为它们缺乏注意力机制所具有的输入依赖型序列混合能力。接下来,受这些洞见启发,我提出了一种基于线性注意力的简单输入依赖型架构,该架构能够以与上下文长度无关的空间开销生成文本。借助这一架构,我展示了我们可以通过简单地改变控制模型空间消耗的超参数,沿着质量—空间帕累托前沿进行权衡。然而,我发现,如果空间消耗显著低于注意力机制所需的空间,上下文内学习能力就会退化。
最后,为了在不损害质量的情况下降低空间消耗,我提出了一种称为自学习(self-study)的技术:它利用空间开销很大的上下文内记忆作为教师,训练一个小型记忆卡匣(memory cartridge),从而实质上以增加计算量为代价换取空间消耗的降低。借助该技术,我表明,在不损害上下文内学习能力的情况下,我们可以将记忆消耗降低 1–3 个数量级。这在长上下文会被多个查询共享、且其处理成本可以摊销的场景中非常有吸引力。总体而言,本论文系统描绘了上下文内学习的效率—质量权衡空间,为构建更加个性化、易获取且高效的 AI 铺平了道路。