ICML 2026 | 理解上下文持续学习中的泛化与遗忘

导读

你是否曾注意到，当给大语言模型（LLM）输入一个很长的提示，其中包含多个不同任务时，模型在后面的回答中会“忘记”前面任务的信息，甚至出现顺序敏感、性能退化？这种现象在现实应用中十分常见：例如，在一个提示中先让模型做情感分类，再做主题识别，然后再做摘要，你会发现模型在处理第三个任务时，前两个任务的知识似乎被干扰了。这背后的原因是什么？现有的上下文学习（In-Context Learning，ICL）理论大多聚焦于单个任务场景，而真实提示往往包含一系列异质任务序列。这就引出了一个根本性问题：LLM在推理过程中，是否通过共享注意力机制隐式地执行了持续学习（Continual Learning）？如果是，这种推理时的持续学习是如何泛化和遗忘的？

来自穆罕默德·本·扎耶德人工智能大学（MBZUAI）和美国布法罗大学的李光宇、丁梦、胡立杰，在ICML 2026上发表了题为《Understanding Generalization and Forgetting in In-Context Continual Learning》的论文，首次提出了上下文持续学习（In-Context Continual Learning）的理论框架。该工作填补了ICL理论与传统持续学习理论之间的关键空白——前者只关注单任务，后者只分析训练时的参数更新。论文通过分析线性和掩码线性自注意力机制，推导出顺序任务提示下预测误差的解析表达式，并提出了偏差-方差-干扰分解，定量刻画了任务相似度、上下文长度和任务顺序如何共同决定历史上下文带来正迁移还是可证明的负迁移。这项研究不仅解释了长提示中顺序敏感性和性能退化的经验现象，还为实际中的提示设计和多任务评估提供了具体指导。

论文基本信息

英文题目 Understanding Generalization and Forgetting in In-Context Continual Learning 作者 Guangyu Li, Meng Ding, Lijie Hu arXiv ID 2605.28705 类别 cs.LG Comments/接收信息 accepted by ICML 2026 原文链接 http://arxiv.org/abs/2605.28705v1

摘要

上下文学习（ICL）的力量源于使大语言模型仅通过基于提示的推理即可适应新任务，完全绕过参数更新。现有理论主要研究单任务场景，而真实提示通常包含异质任务序列，这导致人们对于LLM在推理时是否隐式执行持续学习存在理解空白。为填补这一空白，本文提出了首个上下文持续学习的理论框架，建模预训练Transformer如何通过共享注意力机制在单个提示中处理多个顺序任务。聚焦线性和掩码线性自注意力，推导了顺序任务提示下模型预测的误差表达式，并分析了泛化和遗忘行为。结果表明，标准注意力机制通过均匀或因果聚合历史上下文不可避免地导致跨任务干扰，产生系统性偏差。进一步提供了预测误差的偏差-方差-干扰分解，刻画了历史上下文信息何时产生正迁移或可证明的负迁移。该分析揭示了基于注意力的持续推理的根本局限，并为长提示中的顺序敏感性和性能退化提供了理论解释。

引言：论文要解决什么问题

大语言模型（LLM）在多种任务上展现出卓越的泛化能力，其中上下文学习（ICL）是最突出的特性之一。通过ICL，预训练LLM仅凭提示中嵌入的少量示范就能在推理时适应新任务，无需任何参数更新。这种无参数的适应使LLM成为多功能高效的求解器。ICL的推理时特性暗示了一个诱人的可能性：除了一次性适应，LLM能否在长上下文中积累、复用和更新任务相关信息，从而表现得像一个持续学习者？在实践中，真实提示往往冗长且异质，自然包含任务序列而非单一任务。当这样的提示通过共享注意力机制处理时，较早任务中的表示不可避免地影响后续任务的预测。这种交互可能引发类似于持续学习（CL）的现象，包括知识迁移、干扰甚至负迁移，但这一切都完全发生在推理过程中，没有参数更新。尽管具有现实重要性，这一现象仍未被充分理解。现有ICL理论研究主要聚焦单任务设置，其中所有上下文示例由同一底层函数一次生成，未能捕捉跨任务依赖或顺序干扰。同时，经典持续学习理论主要分析由参数更新驱动的训练时动态，这与ICL的无参数注意力适应根本不同。因此，这两条研究路线之间存在关键空白。这一空白引出了本文的核心问题：LLM如何在推理过程中通过注意力隐式执行持续学习？本文首次尝试回答这一问题，通过发展上下文持续学习的理论框架，理解顺序任务中的泛化和遗忘行为。分析表明，即使没有参数更新，基于注意力的聚合也会跨任务引入系统性偏差和干扰，导致持续推理的可证明极限。具体贡献包括：

首次形式化上下文持续学习：将预训练Transformer处理拼接在单个提示中的任务序列、通过共享注意力进行顺序任务推理而无参数更新的设置定义为上下文持续学习。
偏差-方差-干扰分解：为所有具体任务提供预测误差的解析分解，量化任务相似度、上下文长度和任务顺序如何共同决定历史上下文带来正迁移还是可证明的负迁移。
对经验现象的理论奠基：框架解释了顺序依赖的遗忘、长上下文收益的平台化以及任务相似度对干扰的影响，为多任务或持续设置下的提示设计和评估提供具体指导。

方法：核心思路与技术路线

设置的形式化

论文将上下文持续学习正式定义如下：一个预训练Transformer处理单一提示，该提示由依次拼接的多个任务组成。每个任务包含若干上下文示例（输入-输出对）和一个查询输入。模型通过共享的注意力机制在无参数更新的条件下对任务序列进行推理。关键是，历史任务中的上下文会对当前任务的预测产生干扰或迁移。论文聚焦于线性和掩码线性自注意力模型，这类模型在理论上可解析，同时能捕捉注意力聚合的核心特性。

线性自注意力模型

考虑一个线性自注意力层（没有softmax非线性），其查询、键、值矩阵分别为 (W_Q, W_K, W_V)。输入是序列中的向量：对于每个任务 (\tau)，有上下文示例 ({(x_{\tau,i}, y_{\tau,i})}) 和查询 (x_{\tau,q})。将这些向量拼接为矩阵 (E)，注意力输出为 (\text{Attn}(E)=E + (W_V E) \cdot \text{softmax}(E^\top W_Q^\top W_K E)) 的线性化版本。论文采用线性化形式，即省略softmax，直接使用 (E^\top W_Q^\top W_K E) 作为注意力权重（或经过因果掩码）。掩码线性自注意力则引入因果掩码，使当前位置只能看到之前位置的信息。模型输出表示为加权和：对于当前任务 (\tau) 的查询 (x_{\tau,q})，预测 (\hat{y}{\tau,q}) 是所有历史输入-输出对和当前任务上下文示例的函数。可解析写出为： [ \hat{y}{\tau,q} = \sum_{t \leq \tau} \sum_{i} \alpha_{t,i} y_{t,i} + \text{bias term} ] 其中 (\alpha_{t,i}) 是注意力权重，由查询与历史键的相似度决定，并受到因果掩码的影响。这个表达式直接揭示：预测受到所有任务的影响，而非仅当前任务。

预测误差的偏差-方差-干扰分解

论文的核心贡献是推导出预测误差的分解公式。假设每个任务的真实函数为 (f_\tau(x))，噪声为 (\epsilon)。则对于任务(\tau)的查询(x_{\tau,q})，期望均方误差（MSE）可分解为： [ \mathbb{E}[(\hat{y}{\tau,q} - f\tau(x_{\tau,q}))^2] = \text{Bias}^2 + \text{Variance} + \text{Interference} ] 其中：

偏差（Bias） 源自注意力聚合对历史上下文的加权平均与真实函数之间的系统偏移。即使没有噪声，如果历史任务与当前任务不对齐，也会产生系统性偏差。例如，若历史任务全是线性回归但斜率不同，聚合后得到的是某种平均斜率，偏离当前任务。
方差（Variance） 源于上下文示例中标签噪声的传播。每个示例的噪声经过注意力权重加权平均后，方差与注意力权重的平方和相关。
干扰（Interference） 这是本文特有的项，量化历史任务中与当前任务无关的信息造成的额外误差。干扰项不依赖噪声，而是任务函数差异的加权投影。当两个任务函数在输入空间上的表现不同，注意力权重会将历史任务的信息错误地映射到当前任务上。

分解的具体形式为： [ \text{Interference}\tau = \sum{t \neq \tau} \beta_{\tau,t} \cdot |f_t - P_t f_\tau|^2 ] 其中 (\beta_{\tau,t}) 是任务相关性系数，取决于注意力矩阵和历史长度；(P_t) 是投影算符，度量任务函数之间的差异。当任务完全不相似时，(|f_t - P_t f_\tau|^2) 大，干扰项主导。当任务相似时，干扰项小，甚至可能变成正迁移（如果注意力权重分配合理）。

读懂核心分解：偏差、方差与干扰

论文最关键的技术点，是把当前任务的预测误差拆成三类来源。第一类是方差：上下文示例有限且带噪时，模型对当前任务的估计会不稳定，增加同任务示例通常能降低这一项。第二类是偏差：如果注意力把历史任务样本当成当前任务证据来平均，就会把预测推向错误方向。第三类是干扰：这是多任务上下文中特有的项，它刻画不同任务函数、任务均值或任务方向之间的不对齐如何通过注意力权重进入当前预测。这个分解解释了一个常见但容易被忽视的现象：更长上下文不总是更好。当额外上下文来自同一任务或高度相似任务时，它可能降低方差，带来正迁移；当额外上下文来自异质任务时，它会增加偏差和干扰，导致误差反而上升。也就是说，长上下文的价值取决于“相关信息密度”，而不是 token 数量本身。从理论表述看，线性自注意力会把所有任务样本统一聚合，因此无法表达任务边界；掩码线性自注意力虽然引入了顺序约束，可以分析任务先后带来的影响，但它仍然会把过去任务以固定结构注入后续预测。于是，遗忘并不是因为旧任务信息从上下文窗口中消失，而是因为后续任务重新加权了各任务贡献，使旧任务对应的预测被其他任务方向抵消。

正迁移与负迁移的条件

论文进一步分析了在什么条件下历史上下文提供正迁移或负迁移。关键因素包括：

任务相似度 若历史任务与当前任务在同一下游目标上相似（如同一线性函数但不同噪声水平），则聚合能降低方差，产生正迁移；若任务函数正交或相反，则聚合增加偏差和干扰，产生负迁移。
上下文长度 增加每个任务或整个序列的上下文长度并不总能改善性能。当任务相似时，更多示例可降低方差；但当任务异质时，更多历史信息只会加重干扰，导致误差饱和甚至增加。论文证明存在一个最优上下文长度，超过后边际收益为负。
任务顺序 因果注意力导致较早任务的信息必然影响后续任务，但后续任务不能影响较早任务。因此，顺序敏感：将相似任务放在前面可减少后续干扰，而将不相似任务放在前面则会系统性地破坏后续性能。论文推导出遗忘曲线：任务越早，其信息在后续任务中的有效贡献越小，遗忘率由注意力聚合的衰减率决定。

与标准注意力机制的联系

论文证明，标准注意力机制（均匀或因果聚合历史上下文）本质上无法避免跨任务干扰。原因是注意力权重对所有历史位置一视同仁（均匀注意力）或仅基于位置（因果注意力），缺乏对任务边界的自适应识别。因此，模型无法区分哪些历史信息属于当前任务，哪些属于其他任务。这导致系统性偏差：即使任务边界在提示中明确标出（如分隔符），注意力机制也无法完美隔离任务，因为向量表示中任务信息的混合是固有的。这一结果解释了为什么长提示中模型性能会退化：随着历史任务增多，干扰项累积，偏差增大，方差未必减小，最终导致预测误差上升。

实验：设置、指标与结果

本文是理论导向的论文，但通过模拟实验验证了理论预测。原文实验设置细节未在提供的材料中明确说明，但根据论文的摘要和结果描述，实验主要围绕理论框架的数值模拟展开，用于展示偏差-方差-干扰分解的定量行为以及关键因素（上下文长度、任务相似度、任务顺序）的影响。下文根据原文的图例和结果描述进行总结。原文使用了合成数据模拟顺序线性回归任务。每个任务由线性函数 (y = w^\top x + \epsilon) 定义，其中权重向量 (w) 在不同任务间变化以控制相似度。输入 (x) 从标准高斯分布采样。模型为线性自注意力（无softmax），并分别考察了均匀注意力（平均所有历史）和因果注意力（仅看左边）两种设置。评估指标为每个任务的均方误差（MSE），并分解为偏差、方差和干扰分量。主要结果如下：

上下文长度与MSE的关系（图1）：对于第一个任务（无历史干扰），MSE随上下文长度增加单调下降（方差降低）。但对于后续任务，MSE先下降后上升，存在最优上下文长度。当历史任务与当前任务不相似时，MSE上升更早且更陡。这验证了增加上下文长度并不普遍提高性能的理论预测。
任务相似度的影响（图2）：控制历史任务与当前任务权重之间的余弦相似度，发现当相似度接近1时，MSE大幅下降（正迁移）；当相似度接近-1时，MSE显著上升（负迁移，干扰主导）；当相似度为零时，MSE介于中间。这表明任务相似度是决定正负迁移的关键。
任务顺序与遗忘（图3）：固定一组任务，改变任务顺序。将最容易任务放在最后时，最终任务MSE最低；将最难或最不相关任务放在最后时，MSE最高。同时，较早任务的MSE通常比单独训练时更高，表现遗忘。遗忘程度与历史中与其相似的任务数量成反比。
训练损失曲线（图4）：展示模型在随机初始化下训练线性注意力到最优的损失曲线，说明理论分析基于最优或预训练均衡点。

这些实验证实了理论框架中的偏差-方差-干扰分解对顺序任务预测误差的刻画，并为长提示中的顺序敏感性和性能退化提供了数值证据。

实验设置与主要现象

实验部分围绕理论预测逐项验证。作者首先使用合成线性回归任务，控制每个任务的权重向量、任务相似度、每任务上下文长度以及任务排列顺序，从而观察逐任务 MSE 的变化。核心指标是每个任务的均方误差，并进一步观察误差中由方差下降和跨任务干扰上升造成的权衡。除线性任务外，论文还扩展到稀疏线性回归和两层 ReLU 网络等非线性函数族。结果显示，本文的洞察并不限于最简线性设定：对于第一个任务，增加上下文长度通常持续降低误差；但对后续任务，误差往往先下降再急剧上升。例如在稀疏线性回归中，Task 5 的归一化 MSE 在 M=19 时上升到 0.9905，直接说明异质历史上下文会形成强系统偏差。更有说服力的是，作者还在真实指令模型 Qwen2.5-1.5B-Instruct 上构造 ICCL 评测：将 SST-2 情感分类作为 Task A，将 AG News 主题分类作为 Task B，把两类任务的 in-context 示例串接到一个提示中，要求模型单次前向完成预测。结果显示，当 M=1 时，Task B 准确率相对基线下降超过 15%，体现负迁移；同时在加入 Task B 后，Task A 的最终准确率从 0.934 降到 0.472，呈现明显遗忘。随着 M 增大，Task B 的负迁移有所缓解，但 Task A 的遗忘仍长期存在，符合理论中“任务均值不对齐会造成不可约干扰”的判断。

实验图示与现象解读

图1：上下文长度对不同任务均方误差的影响。第一个任务通常随样本增加而稳定改善，但后续任务会受到历史任务干扰，出现先降后升或平台化。图2：任务相似度对整体误差与逐任务误差的影响。任务越相似，历史上下文越可能带来正迁移；任务越错位，跨任务干扰越强。图3：任务顺序对遗忘程度的影响。相同任务集合在不同排列下会产生不同遗忘曲线，说明顺序本身就是上下文持续学习的重要变量。图4：GPT-2 Tiny 与 GPT-2 Small 的训练损失曲线。实验用于验证理论分析所依赖的预训练注意力模型能够收敛到可分析的稳定区域。

结论：贡献、局限与启发

主要贡献

首个形式化框架：本文提出了上下文持续学习（In-Context Continual Learning）的形式化定义，将ICL与持续学习在推理时连接起来，明确区分了基于注意力聚合的无参数持续学习与基于参数更新的传统持续学习。
偏差-方差-干扰分解：为线性自注意力模型推导出预测误差的完整分解，定量揭示了任务相似度、上下文长度和任务顺序如何共同决定正迁移与负迁移。这一分解具有可解释性，并可直接指导提示设计（例如，通过调整任务顺序或控制历史长度来优化性能）。
对经验现象的理论解释：框架解释了顺序依赖的遗忘、长上下文收益的平台化以及任务相似度对干扰的影响等广泛观察到的现象。这些解释为LLM在复杂提示中的行为提供了理论根基。

局限性与理论假设

原文未在提供的节选中明确讨论局限性，但根据理论框架本身，可识别以下局限：（1）分析局限于线性和掩码线性自注意力，未涵盖softmax注意力及多层、多头注意力；（2）假设任务函数为线性，未处理更复杂的非线性函数；（3）假设预训练模型已是最优或经过充分训练，未考虑训练不足或分布外情况；（4）未涉及现代LLM中常用的旋转位置编码（RoPE）和关键值缓存（KV Cache）等实际组件。这些限制意味着理论结果对实际LLM的行为是定性的而非精确的，但其核心洞察——注意力聚合必然导致跨任务干扰——具有广泛适用性。

对实际提示设计的启发

从工程角度看，这篇论文给出的建议并不是简单地“缩短提示”或“增加示例”，而是要管理上下文中的任务结构。相似任务应尽量聚集，不相关任务应避免混放；若必须在同一上下文中串接多个任务，应显式标记任务边界，并减少无关历史对当前任务的可见性。对于长链路智能体，历史轨迹不应被无差别塞进上下文，而应经过任务相关性筛选、摘要、分段或路由。对评测也有启发。很多基准只测试单任务 ICL 性能，无法暴露多任务顺序提示中的负迁移和遗忘。本文说明，长上下文模型的可靠性评测应包含任务顺序、任务相似度、历史上下文长度等维度，否则可能高估模型在真实复杂提示下的稳定性。

启发与未来方向

实践层面：设计提示时，应尽量让相似任务相邻，将最重要或最易受影响的任务放在序列后方，避免将不相关任务堆叠。长提示并非越长越好，可考虑为每个任务提供适中的上下文长度。
理论层面：可扩展至更多复杂注意力机制（如softmax、多头、带位置编码），以及非线性函数任务。另一个方向是研究如何通过提示格式（如显式任务标签、分隔符、指令）来缓解干扰。
模型设计层面：可探索在推理时引入任务边界感知的注意力掩码或修正机制，以模拟参数更新型持续学习中的记忆回顾。

总之，本文揭示了一个根本性结论：即使没有参数更新，LLM在长上下文中也固有地积累、干扰并有时遗忘任务特定信息，这凸显了注意力驱动的持续推理的潜力与局限，为实际中的提示设计和多任务评估提供了切实指导。

如何看待这篇论文的价值

这篇论文的价值不在于给出一个立即可部署的新算法，而在于把许多经验现象变成了可讨论、可证明、可测量的问题。过去我们常把长提示性能下降归因于“模型注意力不够好”或“上下文太长”，但这些说法过于笼统。本文进一步指出，问题的核心是不同任务证据在共享注意力中的混合方式：如果模型无法识别任务边界，历史信息就会同时承担“有用样本”和“干扰源”两种角色。因此，它也为后续研究提供了清晰方向。第一，模型结构上可以研究任务边界感知的注意力、分块上下文或动态路由机制。第二，提示与系统设计上可以研究如何通过任务标签、检索过滤、上下文压缩和记忆隔离减少无关干扰。第三，理论上可以把线性自注意力的分析扩展到 softmax、多头、多层 Transformer 以及带位置编码的真实大模型。对长上下文和智能体系统而言，这些方向都很关键，因为未来模型面对的不是单一干净任务，而是持续变化、相互干扰的任务流。如果把这项工作放在当前大模型研究背景下，它也提醒我们：上下文窗口扩大并不自动等价于推理能力增强。更大的窗口只是允许更多历史进入注意力计算，但历史是否真正有用，取决于任务之间的可迁移性和模型的选择能力。没有良好的任务选择与隔离机制，长上下文甚至可能让模型更稳定地吸收错误证据。