导读

当主流后训练算法在困难推理任务上陷入“零提升”甚至“退化”的窘境时,来自哈佛大学、麻省理工学院等机构的研究者提出了一个全新的搜索框架——双向进化搜索(Bidirectional Evolutionary Search, BES)。这篇论文直指当前语言模型自我改进方法的两大核心痛点:验证信号稀疏(通常只有二元或粗粒度反馈)和候选生成局限于模型自身高概率分布区域(导致正确解难以被采样到)。作者从生物进化中汲取灵感,引入组合、删除、易位、交叉四个进化算子,并耦合反向子目标分解以提供稠密中间反馈,理论上证明进化算子可逃离“熵壳”,反向搜索可指数级减少所需样本数。实验表明,BES 在逻辑推理、多跳推理和开放问题求解上均显著优于 GRPO、Tree-GRPO 等强基线,且方差更低、稳定性更强。这篇论文不仅为后训练和推理时搜索提供了统一框架,也重新审视了“搜索”在语言模型自我改进中的角色,值得所有从事 LLM 后训练、推理扩展和智能体自改进的研究者与工程师精读。

论文基本信息

英文题目 Self-Improving Language Models with Bidirectional Evolutionary Search 作者 Guowei Xu, Zhenting Qi, Huangyuan Su, Weirui Ye, Himabindu Lakkaraju, Sham M. Kakade, Yilun Du arXiv ID 2605.28814 类别 cs.CL Comments null 接收信息 未明确 原文链接 http://arxiv.org/abs/2605.28814v1

摘要

搜索已被视为语言模型和智能体自我改进的一种有效手段,既用于后训练样本生成,也用于推理阶段。然而,广泛使用的 best-of-N 采样和树搜索面临两个根本局限:验证信号稀疏(仅提供二元或粗粒度反馈),且候选主要通过自回归扩展生成,被限制在模型概率质量高的分布区域。针对这些问题,本文提出双向进化搜索(BES),一个将前向候选进化与反向目标分解耦合的搜索框架。在前向搜索中,BES 用进化算子(组合、删除、易位、交叉)补充标准扩展操作,通过重新组合部分轨迹生成单次模型采样难以获得的高质量候选。在反向搜索中,BES 递归地将原始任务分解为可验证的子目标树,产生稠密的中间反馈来引导前向搜索。论文提供了理论动机分析:仅依赖扩展的搜索生成的候选被限制在窄熵壳内,而进化算子可以逃离该熵壳;反向搜索可以指数级减少找到正确答案所需的样本数。实验表明,在主流后训练算法无法改进的困难后训练任务上,BES 实现了持续提升;在推理时的三个开放问题求解基准上,BES 在平均和最佳表现上均优于现有开源框架。代码和训练模型已公开:https://github.com/Embodied-Minds-Lab/BES。

引言:论文要解决什么问题

现有搜索方法(如 best-of-N 采样和树搜索)尽管在语言模型后训练(如 GRPO)和推理(如 Tree of Thoughts)中取得了成功,但存在两个根本局限:

  • 验证信号稀疏。引导搜索的验证器通常只提供二元或粗粒度反馈(如正确/错误),缺乏对中间步骤的细粒度评估,导致搜索难以聚焦到局部正确区域。在多跳推理等复杂任务中,稀疏信号使得模型容易陷入“奖励破解”(reward hacking)——例如学会跳过搜索动作直接猜测,从而退化。
  • 候选生成受限。当前方法通过自回归扩展方式构造候选(如逐 token 生成或逐步骤扩展),这导致候选天然局限于模型自身概率质量高的分布区域(即“支持域”)。然而,对于困难问题,正确解往往位于低概率区域,单纯扩大采样次数也无法覆盖这些区域。论文理论证明,仅靠扩展生成的候选被限制在一个“窄熵壳”(narrow entropy shell)内,无法探索更广阔的解空间。

BES 针对这两个痛点分别提出解决方案:通过反向子目标分解将稀疏信号稠密化;通过进化算子(组合、删除、易位、交叉)打破自回归扩展的限制,生成模型自身分布之外的高质量候选。论文的核心创新在于将“进化”与“双向搜索”有机结合,并给出严格的理论支撑。 图1:树搜索与双向进化搜索的对比。树搜索按步骤扩展候选,容易局限在较窄的熵壳内;BES 通过进化算子重组轨迹,并用反向子目标提供更密集的反馈。来源:原论文。

方法:核心思路与技术路线

问题形式化

论文将推理问题形式化为三元组 (T = (x, V)),其中 (x) 是问题描述,(V(x, y) \in [0,1]) 是验证器,衡量轨迹 (y) 对问题 (x) 的解决程度。给定策略 (\pi_\theta(\cdot | x))(如 LLM 生成推理链或智能体与环境交互),目标是寻找最大化验证器得分的终端响应 (y^): [ y^(x) \in \arg\max_{y \in \mathcal{Y}_{\text{term}}(x)} V(x, y). ] 这个最大化在训练和推理中都至关重要,但困难问题的解空间往往使穷举不可行。

为什么需要双向进化搜索

BES 的关键判断是:语言模型不是完全不会推理,而是现有搜索过程很难把零散的正确片段重新组织成完整解。best-of-N 和常规树搜索只是在模型高概率区域内不断扩展,候选之间缺少真正的结构性重组;一旦正确解需要跨越低概率中间步骤,继续增加采样数量也可能只是重复相似错误。 因此,论文把搜索分成两个互补方向:前向方向负责生成、编辑和重组候选轨迹,反向方向负责把最终目标拆成可验证子目标。前者扩大可达候选空间,后者缓解只有终局奖励时的稀疏反馈问题。两者结合后,BES 不只是“多采样”,而是把已有候选中的局部有效片段持续筛选、迁移和组合。

前向搜索:扩展可达解空间

BES 维护一个前向搜索树(节点为部分轨迹),除了标准的扩展操作(即继续自回归生成下一步)外,还引入了四个受生物进化启发的进化算子,它们可以直接编辑和重组已有轨迹:

  • 组合(Combination) 从共享前缀的两个轨迹出发,将各自后缀拼接成一个新候选。这类似于性繁殖中染色体交换片段。
  • 删除(Deletion) 移除轨迹内部的一个中间步骤,产生更短的候选。这可以理解为“剪枝”冗余或错误的推理步骤。
  • 易位(Translocation) 将一条轨迹中的某一步替换为另一条轨迹中的对应步骤。这允许“借用”其他轨迹中的正确子步骤。
  • 交叉(Crossover) 在一条轨迹的某个拼接点处截断,并将其尾部替换为另一条轨迹的尾部,产生新的混合轨迹。

这四个算子以固定概率被选择执行。单亲算子(扩展、删除)的父节点从候选集合 (C_t) 中依据基于反向得分的玻尔兹曼分布采样: [ \Pr(n | C_t) = \frac{\exp(\tilde{s}(n)/\tau_t)}{\sum_{n' \in C_t} \exp(\tilde{s}(n')/\tau_t)},\quad \tilde{s}(n) = s(n) + \lambda \cdot \mathbf{1}[\deg(n) = 0] ] 其中 (\tau_t) 是温度,随搜索预算线性退火(从 (\tau_0) 降至 (\tau_{\text{end}} < \tau_0)),逐步从探索转向利用。(\deg(n)) 表示节点已有的子节点数量,未探索节点会获得一个小常数 (\lambda = 0.1) 的奖励,鼓励搜索树保持广度。 对于双亲算子(组合、易位、交叉),需要选择一对父节点 ((n_a, n_b))。论文定义了一个配对得分 (s(n_a, n_b))(详见后向搜索部分),该得分衡量两个父节点对目标树(子目标)的联合覆盖程度,倾向于选择互补性强的节点对。然后按类似玻尔兹曼分布采样。 关键洞察:进化算子并不保证每次产生更好的候选,但它们的价值在于生成多样性的候选——即使只有一小部分得以改进,也足以推动搜索进步。这与生物进化中突变大多有害但少数有益推动演化的原理一致。 图2:BES 的前向搜索算子,包括扩展、组合、删除、易位和交叉,用于突破单纯自回归扩展的候选空间限制。来源:原论文。

反向搜索:通过目标分解实现更好的验证

为了解决验证信号稀疏的问题,BES 引入反向搜索:递归地将原始任务分解为可验证的子目标树,每个子目标配有验证器 (V_g(x, n) \in [0,1]),测试候选节点 (n) 满足子目标 (g) 的程度。顶层子目标即为原始验证器 (V)。 分解过程每隔 (K) 个前向搜索步骤重新执行一次:选择当前候选尚未完全满足的一个叶子子目标,用策略模型 (\pi_\theta) 将其进一步细化分解;然后对所有已有前向节点重新评分。 子目标得分递归定义: [ s(n, g) = \alpha \cdot V_g(x, n) + (1 - \alpha) \cdot \frac{1}{|\text{ch}(g)|} \sum_{g' \in \text{ch}(g)} s(n, g') ] 其中 (\alpha \in [0,1]) 平衡父目标与更细子目标的贡献。叶子子目标直接使用 (V_g(x, n))。如果某子目标已完全满足((V_g(x, n) = 1)),则短路直接得分为 1。整体节点得分 (s(n) \triangleq s(n, g_{\text{root}}))。 配对得分:为衡量两个节点对目标树的联合覆盖,将每个子目标验证器替换为两个父节点中的最大值: [ s(n_a, n_b, g) = \alpha \cdot \max{V_g(x, n_a), V_g(x, n_b)} + (1 - \alpha) \cdot \frac{1}{|\text{ch}(g)|} \sum_{g' \in \text{ch}(g)} s(n_a, n_b, g') ] 这意味着只要其中一个节点满足了某子目标,该子目标即视为覆盖。配对得分鼓励选择覆盖不同子目标的互补节点作为双亲算子。 反向搜索产生的稠密得分直接驱动前向搜索的父节点选择,使搜索即使在无人完全解决问题时也能有效聚焦。

后训练与推理的统一使用

  • 后训练 BES 替换后训练中的样本生成阶段。对于每个训练问题,BES 从前向搜索候选集中返回高质量轨迹,用作后续训练数据(如 SFT、RL)。由于 BES 能发现单次采样难以达到的正确解,它提供了更强的训练信号。
  • 推理 BES 在固定计算预算下运行,最终选择得分最高的终端轨迹作为输出。论文在开放问题求解中展示了其超越现有开源框架的能力。

理论动机

论文提供了严格的理论证明(详见原论文 Section 4):

  • 仅扩展搜索的壳限制:定理 4.4a 证明,仅通过自回归扩展生成的候选被限制在模型分布的一个窄熵壳内,熵壳宽度随步骤数增长缓慢,因此难以覆盖低概率但正确的解。
  • 进化算子可逃离熵壳:通过组合、易位等操作,进化算子能够产生熵壳之外的候选,定理 4.4b 给出逃离条件。
  • 反向搜索指数级减少样本:反向子目标分解使搜索树深度降低,减少所需样本数的指数级上界。直观上,如果问题可分解为 (d) 层子目标,每层正确概率为 (p),则单层搜索需 (1/p) 样本,但双向分解后的期望样本数为 (d \cdot (1/p)) 而非 ((1/p)^d)。

实验:设置、指标与结果

后训练实验

# 逻辑推理(Logical Reasoning)

  • 数据集 Knights-and-Knaves(骑士与无赖谜题),模型需推断每人身份。
  • 基线与设置 基础模型 Gemma-3-1B-it,先 SFT 冷启动(1K 样本,3 轮),然后 4 轮后训练(5K 训练问题,1.3K 验证集)。比较 GRPO、MaxRL 和 BES(应用在 MaxRL 之上)。
  • 结果 如图3 所示,GRPO 和 MaxRL 验证准确率几乎无提升(甚至波动),而 BES 交叉验证准确率在整个训练过程中稳步上升。这说明主流后训练算法难以从困难数据中有效学习,而 BES 能发现更高质量的训练样本。 图3:逻辑推理任务上的验证准确率变化。BES 在 Knights-and-Knaves 后训练中持续提升,而 GRPO 和 MaxRL 提升有限。来源:原论文。

# 多跳推理(Multi-Hop Reasoning)

  • 数据集 MuSiQue,要求智能体从多个文档中检索并整合信息回答复杂问题。
  • 基线与设置 基础模型 Llama-3.2-3B-Instruct 和 Llama-3.1-8B-Instruct,训练 2 轮(更多轮次导致崩溃)。比较 GRPO、Tree-GRPO 和 BES(应用在 GRPO 之上)。智能体可执行搜索动作(如查询 Wikipedia)。
  • 指标 准确率、有效搜索次数、有效动作数、完成率(finish ratio)。
  • 结果(见表 1):
方法 准确率 (↑) 有效搜索次数 (↑) 有效动作数 (↑) 完成率 (↑)
3B 模型
Base 4.0
+ GRPO 2.1 (-1.9) 0.84 0.20 0.64
+ Tree-GRPO 3.9 (-0.1) 1.50 2.14 0.64
+ BES 7.0 (+3.0) 2.31 3.29 0.97
8B 模型
Base 6.6
+ GRPO 5.6 (-1.0) 1.46 1.83 0.37
+ Tree-GRPO 7.4 (+0.8) 0.65 1.36 0.71
+ BES 10.4 (+3.8) 2.11 3.05 0.94
  • 分析:GRPO 在两个规模上均出现退化,原因是模型学会了低效的搜索策略(低有效动作数,低完成率)。Tree-GRPO 仅在 8B 上带来微小提升(+0.8%),在 3B 上持平。BES 在两个规模上都大幅提升准确率(+3.0% 和 +3.8%),同时有效搜索次数、有效动作数和完成率也是最高,说明训练后的智能体学会了主动搜索而非随机猜测。

推理实验:开放问题求解

  • 基准 Circle Packing (Square):将 (N) 个圆放入单位正方形,最大化半径;Circle Packing (Rect.):矩形容器类比;Heilbronn Convex:在单位正方形内放置 (N) 个点,最大化任意子集构成的凸多边形的最小面积。
  • 基线与设置 骨干模型 GPT-5,计算预算与其他开源框架一致。比较 OpenEvolve、GEPA、ShinkaEvolve。参考 Human 专家和 AlphaEvolve(闭源、更多计算量)。
  • 指标 平均 Objective ± 标准差,最佳 Objective。
  • 结果(见表 2):
策略 Circle Packing (Square) Circle Packing (Rect.) Heilbronn (Convex)
Avg. Best Avg.
Human 2.634
AlphaEvolve (闭源) 2.635
OpenEvolve 2.531±.018 2.541 2.267±.014
GEPA 2.613±.022 2.628 2.326±.023
ShinkaEvolve (基础框架) 2.464±.083 2.541 2.335±.026
BES (ours) 2.623±.014 2.632 2.349±.012
  • 分析:BES 在所有三个基准上平均和最佳值均超过所有开源框架,且方差显著更低,表明搜索更稳定可靠。虽然仍低于闭源 AlphaEvolve(后者使用了远多计算资源),但 BES 达到了接近人类专家和最佳闭源方法的水平。

实验结果如何解读

从后训练实验看,BES 的优势主要不在于更复杂的优化器,而在于更好的样本发现机制。GRPO、Tree-GRPO 等方法依赖当前策略产生训练轨迹,如果策略本身已经难以触达正确解,强化学习阶段就会缺少可学习的正信号,甚至可能强化低质量搜索行为。BES 则先通过双向搜索找到更可靠的候选,再把这些候选用于训练,从源头改善训练数据质量。 从推理实验看,BES 在开放问题求解上平均值和最优值都更稳定,说明进化式重组并非只偶然产生个别高分解,而是能系统性降低搜索方差。对于需要程序、几何布局或多步操作的任务,这种稳定性尤其重要,因为实际应用中往往更关心固定预算下能否持续产出可复现的高质量答案。

消融研究与成本分析

论文进行了消融实验(图4),验证各组件贡献。由于正文节选未提供具体数值,我们只能说明:消融研究针对逻辑推理任务,分别测试去掉进化算子、去掉反向目标分解、或者替换为普通扩展的效果,结果证实了进化算子和反向分解各自的必要性。具体可参看原论文图4。 成本分析比较了 BES 与基线的墙钟时间和 API 成本,结果未在正文节选中详细给出,但提示 BES 在产生更高质量候选的同时,额外开销在可接受范围内。 图4:逻辑推理任务上的消融结果,展示进化算子与反向目标分解对 BES 性能的贡献。来源:原论文。

结论:贡献、局限与启发

贡献总结

  • 提出 BES 框架:将前向进化搜索与反向目标分解耦合,同时解决验证信号稀疏和候选生成受限两大问题。
  • 理论证明:严格证明仅扩展搜索限于窄熵壳,进化算子可逃离;反向分解可指数级减少所需样本。
  • 实验验证:在后训练(逻辑推理、多跳推理)和推理(三个开放问题求解)中,BES 均显著优于 GRPO、Tree-GRPO、OpenEvolve 等强基线,且方差更低。
  • 鲁棒性与稳定性:BES 在模型无法改进的困难任务上依然实现持续提升;在推理时方差大幅降低,表明搜索过程更可控。

局限

原文未明确说明局限性。但从论文方法推测,BES 的依赖包括:(1)需要设计可验证的子目标分解方式和对应的验证器,这在不同任务中可能需要手动适配;(2)进化算子的定义需要显式步骤序列,对于非结构化输出(如纯文本长段落),可能需要提示工程来实现;(2)计算成本相比简单采样有所增加,虽然实验显示在同等预算下仍优于基线。

对后训练和推理时搜索的启发

这篇论文的更大价值在于把“搜索”重新放回语言模型自我改进的中心位置。对于高难推理任务,单纯扩大模型或增加采样未必能触达低概率但正确的解;更有效的路径可能是设计能跨候选迁移局部正确片段的搜索算子,并让验证器对中间结构给出更密集的信号。 同时,BES 也提示后训练与推理并不必然割裂:推理时搜索可以产生更好的最终答案,后训练时搜索可以产生更好的训练样本。一个强搜索器既能作为测试时计算的放大器,也能作为数据生成器改善下一轮模型能力。

启发

  • 搜索范式创新 将生物进化中的重组、剪切、易位等操作引入语言模型搜索,打破了“只能自回归扩展”的固有思维,为探索模型分布之外的解空间提供了可行路径。
  • 验证信号稠密化 通过自动分解生成子目标和稠密评分,让搜索即使在完全解未出现时也有指导信号,这对稀疏奖励场景(如代码生成、数学证明)具有普遍借鉴意义。
  • 统一后训练与推理 BES 框架天然适用于两种场景,表明一个强大的搜索算法可能同时改善训练数据质量和推理能力,有助于推动“搜索即自我改进”的研究方向。
  • 理论指导实验 论文的熵壳理论为搜索算法的设计提供了定量分析工具,未来可据此设计更高效的算子或调度策略。

原文信息

本文精读基于以下原文: Guowei Xu, Zhenting Qi, Huangyuan Su, Weirui Ye, Himabindu Lakkaraju, Sham M. Kakade, Yilun Du. "Self-Improving Language Models with Bidirectional Evolutionary Search". arXiv:2605.28814v1 [cs.CL], May 2026. 原文链接:https://arxiv.org/abs/2605.28814v1

成为VIP会员查看完整内容
0

相关内容

大语言模型是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本,还能够深入理解文本含义,处理各种自然语言任务,如文本摘要、问答、翻译等。2023年,大语言模型及其在人工智能领域的应用已成为全球科技研究的热点,其在规模上的增长尤为引人注目,参数量已从最初的十几亿跃升到如今的一万亿。参数量的提升使得模型能够更加精细地捕捉人类语言微妙之处,更加深入地理解人类语言的复杂性。在过去的一年里,大语言模型在吸纳新知识、分解复杂任务以及图文对齐等多方面都有显著提升。随着技术的不断成熟,它将不断拓展其应用范围,为人类提供更加智能化和个性化的服务,进一步改善人们的生活和生产方式。
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
0+阅读 · 38分钟前
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
3+阅读 · 今天14:04
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
6+阅读 · 今天13:49
基于声学的无人机检测技术综述
专知会员服务
5+阅读 · 今天13:37
《当代混合战争分析框架:俄乌战争经验教训》
专知会员服务
5+阅读 · 今天13:11
战略前沿人工智能的再思考(中文)
专知会员服务
7+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
5+阅读 · 5月29日
微信扫码咨询专知VIP会员