导读

检索增强生成(RAG)在多跳问答中面临一个典型的“先有鸡还是先有蛋”问题:为了检索第二跳证据,模型需要先知道桥接实体;但桥接实体往往并没有出现在原始问题中,而是在推理过程中才逐渐浮现。传统静态 RAG 只用问题检索一次,容易漏掉后续证据;自回归模型虽然可以边生成边检索,却只能利用已经从左到右提交的前缀,查询信号出现得较晚,并且错误可能沿前缀累积。 ICML 2026 论文 Self-Augmenting Retrieval for Diffusion Language Models 提出 SARDI,一种面向离散扩散语言模型的动态检索框架。它利用扩散模型每轮去噪时对整个答案所有位置给出的暂定预测,把尚未稳定、甚至低置信度的“未来 token”提前用作检索线索,再用新证据继续去噪。其关键设计是把检索查询阈值生成提交阈值分开:一个 token 可以先参与检索,却不必立即写入答案。 这项工作的意义不止是给扩散语言模型外挂一个 RAG 模块。作者揭示了扩散解码与检索之间的双向协同:一方面,中间去噪轨迹提供自回归模型难以获得的全局前瞻信号;另一方面,检索证据又显著降低相邻 token 之间的条件依赖,使并行解码更容易。五个多跳问答基准显示,SARDI 在训练免费检索方法中建立了更优的质量-延迟前沿,吞吐量最高可提升 8 倍。

论文基本信息

论文题目:Self-Augmenting Retrieval for Diffusion Language Models

中文题目:面向扩散语言模型的自增强检索

作者:Paul Jünger、Justin Lovelace、Linxi Zhao、Dongyoung Go、Kilian Q. Weinberger 作者单位:Cornell University 会议信息:ICML 2026,第 43 届国际机器学习大会,PMLR 306 研究方向:扩散语言模型、检索增强生成、多跳问答、并行解码、动态检索 代码地址:https://github.com/pauljngr/SARDI

摘要

离散扩散语言模型通过反复去噪整个响应来并行生成文本。每一步中,模型都会为所有被遮蔽位置预测暂定 token,只把高置信度预测提交到输出,而丢弃低置信度预测。本文发现,这些通常被丢弃的 token 实际上是检索增强生成中很有价值的前瞻信号:即使置信度不高,它们也常常会在去噪早期暴露关键实体,从而帮助系统在答案最终确定之前检索到更强的证据。 作者据此提出 SARDI,即扩散语言模型的自增强检索框架。SARDI 在去噪过程中动态使用这些前瞻 token 构造查询,并持续刷新外部证据。该检索机制不需要专门训练检索控制器,对稀疏或稠密检索器均适用,也可以接入任何能够产生推理轨迹的离散扩散语言模型。 在五个多跳问答基准上,SARDI 超过当前训练免费的扩散与自回归检索基线,同时实现最高 8 倍吞吐提升。分析进一步表明,中间扩散状态能够更早发现桥接实体,而高质量检索证据会显著降低 token 间依赖,使 RAG 成为特别适合并行扩散解码的应用场景。

引言:多跳 RAG 的桥接实体难题

静态检索为什么不够

经典 RAG 通常在生成开始前,用用户问题执行一次检索,然后在整个回答过程中固定使用这批文档。对于单跳事实问题,这种方式往往足够;但多跳问答所需的后续证据经常依赖中间推理结果,而原始问题没有直接给出关键桥接实体。 例如,问题“陈列《蒙娜丽莎》的博物馆位于哪个城市?”首先需要找到“《蒙娜丽莎》陈列于卢浮宫”,再以“卢浮宫”为桥接实体检索“卢浮宫位于巴黎”。只用原始问题进行静态检索,第一跳证据容易找到,第二跳证据却缺乏明确查询词。 图 1:静态问题检索难以直接发现多跳问题中的桥接实体;扩散模型的中间去噪状态提前暴露“Louvre”,从而在答案提交前检索到“卢浮宫位于巴黎”的后续证据。来源:原论文 PDF 第 2 页。

自回归动态检索的局限

已有自回归动态 RAG 会在生成期间反复检索。IRCoT 等方法利用已生成的推理前缀继续查询;FLARE 先暂时生成下一段文本,再用其中的低置信度跨度触发检索;ReAct、AdaptiveRAG 和 Search-R1 则通过显式搜索动作、路由器或强化学习生成查询。 这些方法缓解了静态检索问题,但仍受自回归结构限制。模型只能从左到右看到已提交前缀,未来位置的信息尚不存在。即使 FLARE 暂时向前生成一句话,其候选跨度仍按自回归顺序产生,一个早期错误可能继续污染后面的 token,最终形成幻觉查询。代理式检索还能引入额外规划、训练和推理开销。

扩散模型提供了新的检索接口

离散扩散语言模型不是一次生成一个 token,而是从全遮蔽序列开始,在每轮去噪中同时预测多个位置。即使某些位置尚未达到提交要求,模型也已经对答案后部的实体、日期和关系形成暂定判断。 这意味着扩散模型可以“偷看”自己的未来答案。中间状态不必作为最终文本可信,却可以作为具有噪声容忍度的检索查询。错误 token 一旦直接提交会损坏答案,但把少量错误词放进检索查询通常不会造成同等严重后果,因为检索器可以依赖问题本身及其他正确实体维持鲁棒性。这种不对称性是 SARDI 的出发点。

背景:自回归与离散扩散解码

自回归语言模型

自回归模型把答案概率分解为从左到右的条件概率,每个位置依赖此前已经生成的前缀。检索系统因此也只能使用问题与已提交文本构造查询。它的优点是生成顺序清晰、局部一致性强,缺点是延迟随输出长度线性增长,而且第二跳线索只有在前缀真正生成后才能使用。

离散扩散语言模型

离散扩散语言模型定义从全 [MASK] 状态到完整答案的一系列去噪状态。每一步,去噪器对所有仍被遮蔽的位置给出词表分布,并选择一部分位置解除遮蔽。多个位置可以并行提交,因此测试时延由去噪轮数而非答案 token 数直接决定。 并行预测也会带来一致性挑战。如果相邻位置强依赖,独立选择各自最高概率 token 可能拼出不一致的实体,例如一处预测“Albert”,另一处预测“Curie”。作者提出,RAG 恰好能缓解这一问题:当实体和事实已经出现在检索文档中,多个输出位置可以分别从证据复制或改写,彼此之间不再需要进行强协调。

方法:SARDI 自增强检索

总体流程

SARDI 把去噪与检索交错执行。系统从全遮蔽答案和问题的初始检索结果开始。每轮去噪时,模型为所有遮蔽位置预测 token 及其置信度,然后基于两个不同阈值执行两种操作:

  • 用于检索:置信度达到查询阈值 τq 的候选 token 被加入查询。
  • 提交生成:只有置信度达到提交阈值 τc 的 token 才真正解除遮蔽,写入下一状态。

核心约束是 τq ≤ τc。于是,一个暂定预测可以在还不足以成为答案时,先成为检索器的前瞻信号。 图 2:SARDI 方法总览。置信度达到查询阈值 τq 的候选 token 被用于刷新检索证据,而只有达到更高提交阈值 τc 的 token 才写入下一去噪状态,由此实现“先用于检索、后稳定提交”。来源:原论文 PDF 第 3 页。

查询构造

设当前去噪状态为 x_t。模型对每个遮蔽位置 i 计算最高 token 概率 c_i。构造代理序列时,已经提交的 token 原样保留;尚未提交但 c_i ≥ τq 的位置填入当前 argmax 预测;其余位置继续保持遮蔽。去掉剩余 [MASK] 后,得到中间响应 r_t,再与原始问题 q 拼接成查询 s_t。 原始问题始终保留在查询中,起到稳定锚点作用。当早期预测包含噪声时,检索仍然知道用户究竟在问什么;随着去噪推进,中间响应逐步加入桥接实体和关系,让查询越来越具体。 论文默认使用 τq=0,即让每个位置的当前最佳预测都参与查询,获得最大前瞻范围。这个设定乍看激进,却与检索和生成对错误的不同容忍度相符,后续阈值实验也验证了它的有效性。

证据刷新

每轮根据 s_t 从外部语料库检索 K 篇新文档,并完整替换上一轮上下文。下一轮去噪由问题、当前答案状态和新文档共同条件化。论文主实验采用 BM25,每轮取 K=7,但方法本身不依赖特定检索器;换成 E5-base-v2 稠密检索器后仍保持优势。 每轮完全刷新看似昂贵,但附录分析发现,相邻检索轮之间平均有 83% 至 90% 文档保持不变。这个现象意味着实际系统可通过文档编码缓存、增量更新或降低刷新频率摊薄成本。

基于置信度的解除遮蔽

提交阶段采用阈值式解除遮蔽:所有 c_i ≥ τc 的位置在同一轮并行写入;如果没有位置达到阈值,则强制提交当前最有把握的位置,保证算法持续推进。 这一机制形成自然课程。已经有充分证据支持的高置信度片段先被固定,并参与下一轮查询;不确定片段等待更强证据后再提交。τc 同时控制两个因素:每轮并行生成多少 token,以及检索被细化多少轮。 较高 τc 意味着更谨慎地提交,去噪与检索轮数更多,通常准确率更高但速度较慢;较低 τc 则一次提交更多位置,吞吐量更高但准确率下降。一个参数即可连续调节质量-速度折中。

完整算法

SARDI 的执行过程可以概括为:

  • 将答案初始化为全 [MASK] 序列。
  • 只用问题执行初始检索。
  • 对所有遮蔽位置并行预测 token 与置信度。
  • 提交超过 τc 的位置;若没有,则提交置信度最高的位置。
  • 用超过 τq 的暂定 token 构造代理响应,并与问题拼接。
  • 使用新查询刷新 K 篇证据。
  • 重复去噪和检索,直到答案完全解除遮蔽。

与需要学习查询策略的搜索代理不同,SARDI 没有额外检索控制器、奖励设计或策略优化。只要离散扩散模型能够输出有意义的推理轨迹,就可直接接入。

实验设置

数据集与指标

作者在五个多跳问答基准上评估:

  • 2WikiMultihopQA:基于维基百科的组合与桥接型多跳问题。
  • HotpotQA:提供细粒度维基百科语料和多文档推理问题。
  • MuSiQue:强调可组合、多步骤推理。
  • CofCA:使用反事实、虚构事实语料,降低预训练数据泄漏影响。
  • SynthWorlds-RM:同样使用合成事实测试检索与推理能力。

主要准确率指标是 Exact Match(EM),延迟以单张 NVIDIA B200 上每个样本的平均墙钟时间计算。主实验使用 BM25 和 K=7,并补充稠密检索器实验。

模型与公平比较

扩散主干采用 DREAM-7B,自回归对照采用 Qwen2.5-7B。一个容易误读的细节是,SARDI 的检索机制是 training-free,但当前基础 DREAM-7B 无法仅靠提示稳定输出结构化推理轨迹。作者因此从 GPT-4o-mini 合成的思维链轨迹中进行轻量监督微调,并对 DREAM-7B 与 Qwen2.5-7B 使用完全相同的微调数据。 微调后,两种模型在静态 K=7 RAG 下的能力接近:DREAM-7B 达到 43.7 EM,Qwen2.5-7B 达到 44.5 EM。这样,动态检索阶段的差异更能归因于检索机制,而不是基础模型能力或训练数据不同。

比较基线

训练免费自回归基线包括静态检索、每 10 个 token 检索、每个 token 检索、FLARE 式自适应检索、AdaptiveRAG 和 ReAct;扩散基线是 DREAM-7B 的静态检索。论文还列出经过强化学习训练的 Search-R1 作为强参考,但明确指出它与 SARDI 处于不同设计点:前者投入额外训练换取查询策略,后者追求即插即用和低延迟。

实验结果

五个基准的主结果

表 1:五个多跳问答基准上的主结果,指标为精确匹配率和单样本平均耗时。SARDI 在所有数据集上显著优于静态扩散检索,并在训练免费方法中取得更优的质量与延迟平衡。来源:原论文 PDF 第 5 页。 SARDI 相比扩散静态检索在每个基准上都取得明显提升:

  • 2WikiMultihopQA 从 43.7 提升至最高 59.1 EM。
  • HotpotQA 从 39.9 提升至最高 48.7 EM。
  • CofCA 从 43.4 提升至约 45 EM。
  • MuSiQue 从 11.1 提升至约 20.6 EM。
  • SynthWorlds-RM 从 14.4 提升至最高 21.7 EM。

在 τc=0.9 时,SARDI 在 2Wiki 上达到 57.8 EM,单样本仅需 0.39 秒;自回归每 token 检索虽然有 58.8 EM,却需要 1.26 秒。HotpotQA 上 SARDI 达到 48.5 EM、0.64 秒,也优于多数训练免费基线。 Search-R1 在 MuSiQue 和 SynthWorlds-RM 上凭借强化学习查询策略获得更高准确率,但推理时间约为 3 秒以上。对于 2Wiki、HotpotQA 和 CofCA,SARDI 在相近准确率下比 Search-R1 快约 3 至 8 倍。论文并未把两者描述为互斥方案,而是指出扩散前瞻轨迹未来也可以结合轻量查询监督。

质量与吞吐量前沿

图 3:2WikiMultihopQA 与 CofCA 上的准确率-吞吐量权衡。调节提交阈值 τc 可以连续控制速度与质量,SARDI 曲线整体位于训练免费基线的帕累托前沿。来源:原论文 PDF 第 6 页。 当 τc 从 0.95 降至 0.6 时,每轮会提交更多 token,问题处理速度显著提高,但 EM 下降。SARDI 不只是提供一个固定运行点,而是一条可调曲线:服务场景可根据延迟预算选择阈值。 在高准确率区域,SARDI 的吞吐量仍明显高于自回归逐 token 检索;在高吞吐区域,它又能以可控精度损失加速。这证明优势来自扩散模型的并行提交,而不是单纯减少检索次数。

低置信度前瞻 token 确实有用

查询阈值 τq 决定候选 token 多可靠时才能进入检索查询。若 τq=τc,查询几乎只看到即将提交的 token,前瞻能力有限;若 τq 接近 0,所有位置的当前最佳预测都可提供检索线索。 图 4-5:左图显示查询阈值越低、允许更多低置信度候选 token 参与检索时,准确率总体越高;右图显示 SARDI 在生成早期即可获得更高的金标准文档召回率,25% 生成进度处领先自回归基线约 19 个百分点。来源:原论文 PDF 第 7 页。 2Wiki 的阈值扫描显示,EM 在最激进的 τq≈0 附近达到峰值,随着查询变得保守而持续下降。HotpotQA、MuSiQue 与 SynthWorlds-RM 也呈现类似趋势。这支持了论文的关键假设:一个 token 不必可靠到可以提交,便已经足以帮助检索器找到正确证据。 从生成进度看,SARDI 的优势集中在早期。生成完成 25% 时,其当前检索集合的金标准文档召回率比自回归频繁检索高约 19 个百分点,并显著接近使用真实推理轨迹构造查询的 oracle。到最后一步,SARDI 与 AR ret@1 的召回率趋同,因此区别不在“最终是否能找到”,而在“证据能否足够早地到达”,让后续去噪从一开始就受到正确事实约束。 按问题类型拆分后,单跳比较题几乎没有提升,因为原问题已经足够支持静态检索;需要发现桥接实体的组合题和推断题提升最大,EM 增益超过 2.5 倍。这进一步确认 SARDI 解决的是多跳证据发现,而非普遍性地增加所有问题分数。

RAG 为什么促进并行解码

作者使用条件互信息(CMI)衡量推理轨迹中相邻 token 的依赖。实体名是最典型的强耦合跨度:如果模型不知道正在生成 Albert Einstein 还是 Isaac Newton,相邻 token 必须协调;一处选择变化会显著改变另一处的分布。 表 3:相邻 token 的条件互信息。完整金标准证据下,实体 token 对的依赖仅为 0.060;移除全部金标准文档后升至 0.588,说明检索接地显著降低了并行解码最棘手的实体跨度耦合。来源:原论文 PDF 第 8 页。 完整金标准文档存在时,实体 token 对的 CMI 仅为 0.060;每移除一篇关键文档,数值依次上升至 0.219、0.396,完全无金标准证据时达到 0.588,接近 10 倍。非实体 token 对只从 0.136 增至 0.264。 这说明证据最显著地降低了实体跨度的耦合。模型可以直接从文档中复制或改写实体,不必让多个位置互相“猜测”以维持一致。RAG 因此不是扩散并行解码的额外负担,而是在统计结构上让并行生成更容易。

检索器与刷新频率消融

将 BM25 替换为 E5-base-v2 稠密检索器后,SARDI 在五个数据集上仍超过最强训练免费自回归基线,并与 Search-R1 保持竞争力,说明方法不依赖词法检索器的特殊性质。 每轮刷新检索并非绝对必要。改为每 2 个去噪步骤刷新一次,2Wiki 和 HotpotQA 只损失 1 至 2 EM,CofCA 与 MuSiQue 基本不变;每 4 步刷新时下降更明显。结合相邻轮次 83% 至 90% 文档保持不变的观察,部署时可以通过稀疏刷新与缓存减少文档编码开销。 附录还比较固定 50 步解码与阈值式解除遮蔽。τc=0.9 或 0.95 在相近甚至更高 EM 下实现约 2 至 3 倍速度提升,证明阈值策略比固定步数更能适应样本难度。

局限性

第一,检索机制虽然无需专门训练,但当前被测试的扩散模型还不能可靠地仅靠提示生成推理轨迹。论文实验需要轻量监督微调,这限制了“即插即用”在现阶段基础模型上的直接程度。作者预期随着 DLM 能力成熟,这一步会像早期自回归模型的思维链能力一样逐渐不再必要。 第二,SARDI 默认每个去噪步骤都刷新检索。若使用大型语料库、昂贵重排序器或复杂稠密编码器,朴素实现会产生额外文档编码成本。论文的文档持久性与刷新消融表明缓存和增量检索很有潜力,但尚未形成完整工程方案。 第三,本文聚焦能够显式生成推理轨迹的离散扩散语言模型。如何推广到潜空间扩散语言模型,以及如何在没有可读中间 token 的情况下构造检索前瞻信号,仍是开放问题。 第四,主任务是开放域多跳问答。代码生成、长文事实写作、工具调用和多模态知识检索是否同样受益,需要后续验证。这些任务的查询粒度、证据持久性和错误成本可能与问答不同。

结论与启发

SARDI 的核心创新可以概括为一句话:不要丢掉扩散模型尚未提交的预测,把它们当作寻找证据的草稿。

这项工作利用了检索与生成对错误的不同敏感度。低置信度 token 不适合直接写进答案,却可以作为容错查询的一部分;新证据反过来提高后续 token 的置信度,并降低实体跨度之间的依赖。检索与去噪由此形成自增强闭环。 从更广的角度看,SARDI 展示了非自回归语言模型不只是“更快地生成相同文本”。其全局中间状态本身是一种新的系统接口,可用于检索、验证、规划和工具选择。未来若扩散语言模型进一步成熟,这类基于生成轨迹的动态外部交互,可能成为它们区别于自回归模型的真正结构优势。

原文信息

论文题目:Self-Augmenting Retrieval for Diffusion Language Models 作者:Paul Jünger、Justin Lovelace、Linxi Zhao、Dongyoung Go、Kilian Q. Weinberger 论文链接:https://arxiv.org/abs/2606.06474 PDF:https://arxiv.org/pdf/2606.06474 代码:https://github.com/pauljngr/SARDI

成为VIP会员查看完整内容
0

相关内容

检索增强生成(RAG)技术,261页slides
专知会员服务
42+阅读 · 2025年10月16日
【SIGIR2025教程】动态与参数化检索增强生成
专知会员服务
17+阅读 · 2025年7月14日
【新书】检索增强生成(RAG)入门指南
专知会员服务
30+阅读 · 2025年6月25日
迈向可信的检索增强生成:大语言模型综述
专知会员服务
30+阅读 · 2025年2月12日
定制化大型语言模型的图检索增强生成综述
专知会员服务
38+阅读 · 2025年1月28日
【KDD2024教程】RAG遇上LLMs:迈向检索增强的大语言模型
专知会员服务
68+阅读 · 2024年9月7日
【WWW2024】元认知检索-增强大型语言模型
专知会员服务
50+阅读 · 2024年2月26日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
从Seq2seq到Attention模型到Self Attention(二)
量化投资与机器学习
23+阅读 · 2018年10月9日
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
ICML 2026 | SARDI:扩散语言模型的自增强检索
专知会员服务
0+阅读 · 今天14:33
长时程具身智能安全综述:机器人操作的跨层分析
《国防领域安全采用大语言模型的战略蓝图》
专知会员服务
2+阅读 · 今天13:55
ICML 2026 | 演化选择的因果建模
专知会员服务
4+阅读 · 6月5日
综述|学习式3D表征最新进展与趋势
专知会员服务
4+阅读 · 6月5日
人工智能重塑威慑:算法优势的兴起
专知会员服务
7+阅读 · 6月5日
AgentOps综述:智能体系统运维框架
专知会员服务
16+阅读 · 6月4日
《美陆军最新条令:兵力防护》
专知会员服务
13+阅读 · 6月4日
相关VIP内容
检索增强生成(RAG)技术,261页slides
专知会员服务
42+阅读 · 2025年10月16日
【SIGIR2025教程】动态与参数化检索增强生成
专知会员服务
17+阅读 · 2025年7月14日
【新书】检索增强生成(RAG)入门指南
专知会员服务
30+阅读 · 2025年6月25日
迈向可信的检索增强生成:大语言模型综述
专知会员服务
30+阅读 · 2025年2月12日
定制化大型语言模型的图检索增强生成综述
专知会员服务
38+阅读 · 2025年1月28日
【KDD2024教程】RAG遇上LLMs:迈向检索增强的大语言模型
专知会员服务
68+阅读 · 2024年9月7日
【WWW2024】元认知检索-增强大型语言模型
专知会员服务
50+阅读 · 2024年2月26日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员