ICML2026 | 重新思考顺序知识编辑中的正则化

导读

大语言模型在作为知识库部署时，需要不断更新事实知识以保持时效性。“顺序编辑”允许对模型参数进行多次局部修改，而无需从头重训。然而，现有方法往往堆叠各种正则化或约束机制（如零空间投影、后处理算子、约束优化目标）来维持编辑稳定性，但这些机制是否必要、核心原理是什么，始终缺乏系统性的理论回答。由 Bosch AI 中心与华东师范大学的研究者（Zheng Wang, Kaixuan Zhang, Wanfang Chen 等）完成的这篇 ICML 2026 论文，通过严格的优化分析，揭示了一个简洁而深刻的洞察：一次编辑（One-Time Editing, OTE）与顺序编辑（Sequential Editing, SE）在数学上本质等价，稳定性的根本来源是正确累积所有编辑的约束，而非任何专门的正则化技巧。基于这一发现，论文证明了大量常见正则化策略完全多余，并提出了一个极简且通用的设计准则（ℓₜ(Δ) 公式），甚至能进一步处理冲突编辑。这篇论文为日益复杂的知识编辑领域提供了“阿里阿德涅之线”——一条走出正则化迷宫、通往可解释且可靠更新的清晰路径。对于从事大模型知识更新、持续学习或参数微调的研究者与工程师而言，它颠覆了固有的设计直觉，值得深度精读。

论文基本信息

摘要

图1：论文核心洞察。左侧展示一次编辑与顺序编辑的等价关系，右侧展示在通用能力基准上，OTE对齐的顺序编辑能保持性能，而未对齐实现会导致明显退化。顺序编辑使得大语言模型能够更新结构化知识而无需重训，但现有方法常常依赖复杂的正则化或约束机制，而这些机制的必要性并不明确。本文系统地研究了有效且稳定的顺序编辑背后的机制。具体来说，我们首先分析了 AlphaEdit 的经验成功，通过严格的优化分析建立了一次编辑（OTE）与顺序编辑（SE）之间的形式等价性。基于这一洞见，我们将等价性推广到更广泛的编辑目标类，证明稳定性天然来自对累积编辑约束的正确计入，而非来自专门的正则化或零空间操作。我们通过实验确认，许多常用正则化策略对于可靠的顺序更新而言是不必要的。此外，我们将框架扩展到处理冲突编辑，确保在矛盾更新下依然鲁棒且一致。最终，本工作为顺序编辑的迷宫提供了阿里阿德涅之线，指明了一条更简单、更可解释、更可靠的知识更新路径。

引言：论文要解决什么问题

随着大语言模型作为事实知识存储库的广泛应用（知识通常以 (subject, relation, object) 三元组形式表示），在动态环境中精确更新或修正特定结构化知识而不重训模型的能力成为核心挑战。参数修改类方法（如定位-编辑范式）先定位与目标事实相关的参数，再施加约束更新。为了支持顺序（终身）编辑，近年来涌现了多种机制：AlphaEdit 的零空间投影、隐式正则化的后处理算子、约束优化目标等。这些设计旨在减轻编辑间的干扰，保持已编辑知识。其中 AlphaEdit 因其突出的经验稳定性而引人注目。然而，这些机制的多样性和复杂性引出一个基本问题：确保成功且可靠的顺序模型编辑的基本要素到底是什么？以往研究（如 Li 等人 2024；Gupta 等人 2024；Li & Chu 2024）主要基于实证，缺乏统一理论，未能完全解释 AlphaEdit 等方法的成功。本文试图通过四个研究问题给出原理性答案：RQ1：AlphaEdit 的经验成功在多大程度上归因于其零空间投影机制？RQ2：超越 AlphaEdit，什么一般原则支配有效顺序编辑，能否提炼为有理论依据的设计准则？RQ3：在已经稳定可靠的模型更新之上应用复杂正则化策略的实际影响是什么？RQ4（隐含在扩展中）：如何处理冲突编辑？本文通过对定位-编辑方法的统一 OLS 公式化，证明了 OTE 与 SE 的数学等价性，从而回答了这些问题——稳定性源自约束的正确累积，而非特殊机制。

方法：核心思路与技术路线

整体视角：从定位-编辑到 OLS 公式化

本文方法的核心是建立一个统一的优化视角。大多数定位-编辑方法可以被形式化为普通最小二乘（OLS）问题，通常存在闭式解。对于一次编辑（OTE），目标是找到一组参数变化 Δ 使得更新后的模型在新知识上满足约束，同时尽可能不损坏已有知识。对于顺序编辑（SE），编辑按顺序施加：在时刻 t，基于当前模型状态施加一个新的事实更新，同时希望保持之前所有编辑的结果。

核心证明：OTE-SE 等价性

图2：四种编辑方法在Qwen2.5 7B上的OTE与SE性能对比。蓝色表示一次编辑，绿色表示顺序编辑，二者几乎重合，验证了OTE-SE等价性。论文通过两个关键原理确立了 OTE 与 SE 的数学等价性。 Lemma 3.1 和 Proposition 3.2 系统证明了：在基于 OLS 的定位-编辑框架下，顺序编辑的解恰好等于将所有编辑约束一次性汇总后求解的一次编辑的解。直观理解：顺序地施加约束与一次性地施加所有约束，在优化最优解上是等价的。这揭示了顺序编辑的稳定性并非来自复杂的记忆机制，而是因为每一步编辑本质上都是在全局约束下求解的——只要正确累积了历史约束，最终结果与一次性编辑无异。论文以 AlphaEdit 为案例，展示了其零空间投影机制实际上是在隐式地实现这种约束累积，而其表面的“零空间操作”并非本质——真正起作用的是对历史编辑信息的保留。

推广到更广泛的编辑目标

论文并未止步于 OLS 特例。作者进一步将等价性推广到更一般的编辑目标类。对应 Proposition 3.4，论文提出了稳定 SE 的设计规则：ℓₜ(Δ) = ℒₜ(Δ_total, Ω₁/∗) + Δ。其中 ℒₜ 是关于第 t 次编辑的损失函数，Δ_total 是截至当前所有编辑的总参数变化，Ω₁/∗ 表示从历史编辑中保留的某种信息（如约束的表示）。关键结论是：只要当前编辑的损失函数正确引用了累积约束（而不是仅依赖当前单独解），那么顺序编辑就能保持稳定。这意味着许多旨在“记忆”历史编辑的机制（如专门的记忆缓冲区、正则化项）在原则上是多余的——只需在每步编辑时正确纳入全局约束即可。

冲突编辑的处理

在完成对一般稳定性的理解后，论文进一步扩展框架以处理冲突编辑——即后续编辑要求与先前编辑矛盾（例如先编辑“冥王星是行星”再编辑“冥王星是矮行星”，但两者物理上冲突？实际上冲突更指同一事实的不同版本）。作者表明，通过将冲突编辑建模为约束集中存在不一致，OLS 框架可以提供鲁棒解（例如采用加权或取交/并策略）。这一扩展确保了框架在矛盾更新下依然保持一致行为，无需引入额外的正则化。

与现有方法的关系

论文没有详细赘述所有定位-编辑方法，但用该统一视角解释了为何许多现有正则化策略（如 PRUNE 和 RECT 中的后处理对齐、AlphaEdit 的零空间投影）在 OTE-SE 对齐后显得冗余。实验部分对“对齐”与“未对齐”的对比直接证实了这一点。

实验：设置、指标与结果

数据集与评估任务

实验使用 GLUE 基准中的六个子任务来测试编辑后的通用能力（General Capability）：SST (情感分类)、MRPC (复述检测)、CoLA (语法可接受性)、RTE (文本蕴含)、MMLU (大规模多任务理解)、NLI (自然语言推理)。选择这些任务是为了评估编辑是否破坏了模型原本的通用语言理解和推理能力。编辑测试本身在知识编辑标准数据集上进行（论文未明确指定具体编辑数据集名称，但属于结构化三元组编辑场景）。

模型与实验设置

评估了四个不同规模的模型：

Qwen2.5 (7B) 主要模型，用于详细对比。
GPT-2 XL (1.5B) 较小规模模型。
GPT-J (6B) 中等规模模型。
LLaMA-3 (8B) 大规模模型。

实验设置核心是对比 OTE 设置 和 SE 设置。在 OTE 设置下，所有编辑的约束一次性合并求解（即理想的一次编辑场景）。在 SE 设置下，按照顺序逐次应用编辑。如果模型实现是 OTE 对齐的（即顺序编辑的内部机制等价于 OTE），则两者性能应一致。反之，未对齐的 SE 实现会导致性能显著下降。

主要结果

图3：OTE对齐后LLaMA-3 8B在六个通用能力任务上的F1变化。随着编辑步数增加，SST、MRPC、CoLA、RTE、MMLU和NLI整体保持稳定。 图2与表3：验证 OTE-SE 等价性。在 Qwen2.5 (7B) 上对四种编辑方法（PRUNE, RECT, AlphaEdit 等，论文未逐一命名，但配图显示四种）分别运行 OTE 和 SE 设置，计算编辑成功率或保真度等指标。结果表明，在 OTE 对齐的实现下，SE 与 OTE 的性能曲线几乎重合，证实了等价性的理论预测。完整结果在于所有四个模型上一并报告（表 3），进一步支持了这一等价性普遍成立。 图1右与图5：通用能力保持效果。图 1 右显示了 LLaMA-3 (8B) 在 GLUE 六个任务上的 F1 分数变化，对比 OTE 对齐与未对齐。关键发现：在使用 OTE 对齐的 SE 实现时（图 1 右“Aligned”部分），随着编辑步骤增加（0 到 2000 步），各任务的 F1 得分几乎保持水平，无明显退化。相反，未对齐的朴素实现（图 5 及图 1 右“Misaligned”部分）导致 F1 分数急剧下降，特别是 CoLA 和 MMLU 等任务在几百步内即跌至接近零。这直接证明了 OTE-SE 对齐是维持通用能力的关键，而非任何附加正则化。 正则化不必要：论文的摘要和实验确认，许多常用正则化策略（如 AlphaEdit 的零空间投影、后处理正则化项）在已实现 OTE 对齐的前提下不再必要。实验对比了带/不带这些正则化的对齐实现，发现性能无差异，从而印证了理论。

消融与分析

图4：编辑前后隐藏表示的降维可视化。未OTE对齐的PRUNE和RECT出现显著分布偏移，对齐后分布漂移明显减小。原文未明确说明独立的消融实验设计，但上述实验对比（对齐 vs 未对齐、有无正则化）实际上构成了核心消融分析。通过比较不同实现变体，论文分离出了“约束正确累积”这一唯一必要的因素。此外，图 4 的可视化分析展示了 PRUNE 和 RECT 在未对齐与完全 OTE 对齐后的隐藏表示分布变化：未对齐时表示显著偏移，而对齐后偏移极小，直观说明了为何 OTE 对齐能保持性能。图5：未OTE对齐的朴素编辑方法在通用能力任务上的退化曲线。多项任务随编辑步数增加快速崩塌，说明正确的OTE-SE对齐是能力保持的关键。

结论：贡献、局限与启发

贡献

理论奠基：首次通过严格的优化分析证明了顺序编辑与一次编辑的数学等价性，为知识编辑领域提供了统一理论框架。
简化设计：揭示了稳定性源于约束的正确累积而非专门正则化，从而排除了大量非必要的复杂机制。
实用准则：提出了可操作的稳定 SE 设计规则（ℓₜ 公式），并展示了如何将其用于改进现有方法（如 PRUNE, RECT 的对齐）。
冲突处理：扩展框架至矛盾编辑，提升了鲁棒性。
实证验证：在多个大模型上（7B 到 8B）和多任务验证了核心理论，代码开源（GitHub链接）。

局限

原文未明确说明局限性。根据论文内容推测，可能存在的局限包括：理论框架主要适用于基于 OLS 的定位-编辑方法，对于其他范式（如元学习、外部记忆）的覆盖程度未讨论；实验主要针对英文模型和 GLUE 基准，对多语言或更大模型（如 70B+）的验证未涉及；冲突编辑处理的具体算法细节未展开。但论文未明确声明这些局限，故写“原文未明确说明”。

启发

研究者应重新审视现有顺序编辑方法中附加的正则化模块，优先确保“约束累积”原则的实现，而非引入新的复杂性。
实践者可基于 OTE-SE 等价性简化代码实现：只要每步编辑的损失函数正确包含历史约束，即可获得稳定的顺序更新，无需额外记忆或正则项。
对于未来工作，该框架可拓展至非结构化编辑、多模态模型更新等领域，为持续学习提供更简洁的理论基石。

成为VIP会员查看完整内容

导读