如今,大语言模型通过上下文内学习与记忆来适应用户和新环境——也即模型能够从即时传入的信息中学习,并记住这些信息。然而,由于注意力机制这一现代语言模型架构中的核心算子,随着用户提供的信息越来越多,上下文内学习会变得极其低效,并最终出现失效。在本论文中,我考察了支配上下文内学习与记忆的基本质量—效率权衡:模型的上下文内学习能力与其消耗的空间和计算量之间存在怎样的关系?

我首先分析了一大类更高效、无注意力的语言模型架构,这些架构基于卷积。尽管它们使用更少的计算和空间,但我发现,这些经典架构在上下文内学习与记忆方面表现困难,因为它们缺乏注意力机制所具有的输入依赖型序列混合能力。接下来,受这些洞见启发,我提出了一种基于线性注意力的简单输入依赖型架构,该架构能够以与上下文长度无关的空间开销生成文本。借助这一架构,我展示了我们可以通过简单地改变控制模型空间消耗的超参数,沿着质量—空间帕累托前沿进行权衡。然而,我发现,如果空间消耗显著低于注意力机制所需的空间,上下文内学习能力就会退化。

最后,为了在不损害质量的情况下降低空间消耗,我提出了一种称为自学习(self-study)的技术:它利用空间开销很大的上下文内记忆作为教师,训练一个小型记忆卡匣(memory cartridge),从而实质上以增加计算量为代价换取空间消耗的降低。借助该技术,我表明,在不损害上下文内学习能力的情况下,我们可以将记忆消耗降低 1–3 个数量级。这在长上下文会被多个查询共享、且其处理成本可以摊销的场景中非常有吸引力。总体而言,本论文系统描绘了上下文内学习的效率—质量权衡空间,为构建更加个性化、易获取且高效的 AI 铺平了道路。

成为VIP会员查看完整内容
0

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
VIP会员
最新内容
面向具身智能与机器人仿真的三维生成:综述
专知会员服务
0+阅读 · 今天14:22
《新兴技术武器化及其对全球风险的影响》
专知会员服务
8+阅读 · 4月29日
《帕兰泰尔平台介绍:信息分析平台》
专知会员服务
21+阅读 · 4月29日
微信扫码咨询专知VIP会员