当主流后训练算法在困难推理任务上陷入“零提升”甚至“退化”的窘境时,来自哈佛大学、麻省理工学院等机构的研究者提出了一个全新的搜索框架——双向进化搜索(Bidirectional Evolutionary Search, BES)。这篇论文直指当前语言模型自我改进方法的两大核心痛点:验证信号稀疏(通常只有二元或粗粒度反馈)和候选生成局限于模型自身高概率分布区域(导致正确解难以被采样到)。作者从生物进化中汲取灵感,引入组合、删除、易位、交叉四个进化算子,并耦合反向子目标分解以提供稠密中间反馈,理论上证明进化算子可逃离“熵壳”,反向搜索可指数级减少所需样本数。实验表明,BES 在逻辑推理、多跳推理和开放问题求解上均显著优于 GRPO、Tree-GRPO 等强基线,且方差更低、稳定性更强。这篇论文不仅为后训练和推理时搜索提供了统一框架,也重新审视了“搜索”在语言模型自我改进中的角色,值得所有从事 LLM 后训练、推理扩展和智能体自改进的研究者与工程师精读。
英文题目 Self-Improving Language Models with Bidirectional Evolutionary Search 作者 Guowei Xu, Zhenting Qi, Huangyuan Su, Weirui Ye, Himabindu Lakkaraju, Sham M. Kakade, Yilun Du arXiv ID 2605.28814 类别 cs.CL Comments null 接收信息 未明确 原文链接 http://arxiv.org/abs/2605.28814v1
搜索已被视为语言模型和智能体自我改进的一种有效手段,既用于后训练样本生成,也用于推理阶段。然而,广泛使用的 best-of-N 采样和树搜索面临两个根本局限:验证信号稀疏(仅提供二元或粗粒度反馈),且候选主要通过自回归扩展生成,被限制在模型概率质量高的分布区域。针对这些问题,本文提出双向进化搜索(BES),一个将前向候选进化与反向目标分解耦合的搜索框架。在前向搜索中,BES 用进化算子(组合、删除、易位、交叉)补充标准扩展操作,通过重新组合部分轨迹生成单次模型采样难以获得的高质量候选。在反向搜索中,BES 递归地将原始任务分解为可验证的子目标树,产生稠密的中间反馈来引导前向搜索。论文提供了理论动机分析:仅依赖扩展的搜索生成的候选被限制在窄熵壳内,而进化算子可以逃离该熵壳;反向搜索可以指数级减少找到正确答案所需的样本数。实验表明,在主流后训练算法无法改进的困难后训练任务上,BES 实现了持续提升;在推理时的三个开放问题求解基准上,BES 在平均和最佳表现上均优于现有开源框架。代码和训练模型已公开:https://github.com/Embodied-Minds-Lab/BES。
现有搜索方法(如 best-of-N 采样和树搜索)尽管在语言模型后训练(如 GRPO)和推理(如 Tree of Thoughts)中取得了成功,但存在两个根本局限:
BES 针对这两个痛点分别提出解决方案:通过反向子目标分解将稀疏信号稠密化;通过进化算子(组合、删除、易位、交叉)打破自回归扩展的限制,生成模型自身分布之外的高质量候选。论文的核心创新在于将“进化”与“双向搜索”有机结合,并给出严格的理论支撑。 图1:树搜索与双向进化搜索的对比。树搜索按步骤扩展候选,容易局限在较窄的熵壳内;BES 通过进化算子重组轨迹,并用反向子目标提供更密集的反馈。来源:原论文。
论文将推理问题形式化为三元组 (T = (x, V)),其中 (x) 是问题描述,(V(x, y) \in [0,1]) 是验证器,衡量轨迹 (y) 对问题 (x) 的解决程度。给定策略 (\pi_\theta(\cdot | x))(如 LLM 生成推理链或智能体与环境交互),目标是寻找最大化验证器得分的终端响应 (y^): [ y^(x) \in \arg\max_{y \in \mathcal{Y}_{\text{term}}(x)} V(x, y). ] 这个最大化在训练和推理中都至关重要,但困难问题的解空间往往使穷举不可行。
BES 的关键判断是:语言模型不是完全不会推理,而是现有搜索过程很难把零散的正确片段重新组织成完整解。best-of-N 和常规树搜索只是在模型高概率区域内不断扩展,候选之间缺少真正的结构性重组;一旦正确解需要跨越低概率中间步骤,继续增加采样数量也可能只是重复相似错误。 因此,论文把搜索分成两个互补方向:前向方向负责生成、编辑和重组候选轨迹,反向方向负责把最终目标拆成可验证子目标。前者扩大可达候选空间,后者缓解只有终局奖励时的稀疏反馈问题。两者结合后,BES 不只是“多采样”,而是把已有候选中的局部有效片段持续筛选、迁移和组合。
BES 维护一个前向搜索树(节点为部分轨迹),除了标准的扩展操作(即继续自回归生成下一步)外,还引入了四个受生物进化启发的进化算子,它们可以直接编辑和重组已有轨迹:
这四个算子以固定概率被选择执行。单亲算子(扩展、删除)的父节点从候选集合 (C_t) 中依据基于反向得分的玻尔兹曼分布采样: [ \Pr(n | C_t) = \frac{\exp(\tilde{s}(n)/\tau_t)}{\sum_{n' \in C_t} \exp(\tilde{s}(n')/\tau_t)},\quad \tilde{s}(n) = s(n) + \lambda \cdot \mathbf{1}[\deg(n) = 0] ] 其中 (\tau_t) 是温度,随搜索预算线性退火(从 (\tau_0) 降至 (\tau_{\text{end}} < \tau_0)),逐步从探索转向利用。(\deg(n)) 表示节点已有的子节点数量,未探索节点会获得一个小常数 (\lambda = 0.1) 的奖励,鼓励搜索树保持广度。 对于双亲算子(组合、易位、交叉),需要选择一对父节点 ((n_a, n_b))。论文定义了一个配对得分 (s(n_a, n_b))(详见后向搜索部分),该得分衡量两个父节点对目标树(子目标)的联合覆盖程度,倾向于选择互补性强的节点对。然后按类似玻尔兹曼分布采样。 关键洞察:进化算子并不保证每次产生更好的候选,但它们的价值在于生成多样性的候选——即使只有一小部分得以改进,也足以推动搜索进步。这与生物进化中突变大多有害但少数有益推动演化的原理一致。 图2:BES 的前向搜索算子,包括扩展、组合、删除、易位和交叉,用于突破单纯自回归扩展的候选空间限制。来源:原论文。
为了解决验证信号稀疏的问题,BES 引入反向搜索:递归地将原始任务分解为可验证的子目标树,每个子目标配有验证器 (V_g(x, n) \in [0,1]),测试候选节点 (n) 满足子目标 (g) 的程度。顶层子目标即为原始验证器 (V)。 分解过程每隔 (K) 个前向搜索步骤重新执行一次:选择当前候选尚未完全满足的一个叶子子目标,用策略模型 (\pi_\theta) 将其进一步细化分解;然后对所有已有前向节点重新评分。 子目标得分递归定义: [ s(n, g) = \alpha \cdot V_g(x, n) + (1 - \alpha) \cdot \frac{1}{|\text{ch}(g)|} \sum_{g' \in \text{ch}(g)} s(n, g') ] 其中 (\alpha \in [0,1]) 平衡父目标与更细子目标的贡献。叶子子目标直接使用 (V_g(x, n))。如果某子目标已完全满足((V_g(x, n) = 1)),则短路直接得分为 1。整体节点得分 (s(n) \triangleq s(n, g_{\text{root}}))。 配对得分:为衡量两个节点对目标树的联合覆盖,将每个子目标验证器替换为两个父节点中的最大值: [ s(n_a, n_b, g) = \alpha \cdot \max{V_g(x, n_a), V_g(x, n_b)} + (1 - \alpha) \cdot \frac{1}{|\text{ch}(g)|} \sum_{g' \in \text{ch}(g)} s(n_a, n_b, g') ] 这意味着只要其中一个节点满足了某子目标,该子目标即视为覆盖。配对得分鼓励选择覆盖不同子目标的互补节点作为双亲算子。 反向搜索产生的稠密得分直接驱动前向搜索的父节点选择,使搜索即使在无人完全解决问题时也能有效聚焦。
论文提供了严格的理论证明(详见原论文 Section 4):
| 方法 | 准确率 (↑) | 有效搜索次数 (↑) | 有效动作数 (↑) | 完成率 (↑) |
|---|---|---|---|---|
| 3B 模型 | ||||
| Base | 4.0 | – | – | – |
| + GRPO | 2.1 (-1.9) | 0.84 | 0.20 | 0.64 |
| + Tree-GRPO | 3.9 (-0.1) | 1.50 | 2.14 | 0.64 |
| + BES | 7.0 (+3.0) | 2.31 | 3.29 | 0.97 |
| 8B 模型 | ||||
| Base | 6.6 | – | – | – |
| + GRPO | 5.6 (-1.0) | 1.46 | 1.83 | 0.37 |
| + Tree-GRPO | 7.4 (+0.8) | 0.65 | 1.36 | 0.71 |
| + BES | 10.4 (+3.8) | 2.11 | 3.05 | 0.94 |
| 策略 | Circle Packing (Square) | Circle Packing (Rect.) | Heilbronn (Convex) |
|---|---|---|---|
| Avg. | Best | Avg. | |
| Human | – | 2.634 | – |
| AlphaEvolve (闭源) | – | 2.635 | – |
| OpenEvolve | 2.531±.018 | 2.541 | 2.267±.014 |
| GEPA | 2.613±.022 | 2.628 | 2.326±.023 |
| ShinkaEvolve (基础框架) | 2.464±.083 | 2.541 | 2.335±.026 |
| BES (ours) | 2.623±.014 | 2.632 | 2.349±.012 |
从后训练实验看,BES 的优势主要不在于更复杂的优化器,而在于更好的样本发现机制。GRPO、Tree-GRPO 等方法依赖当前策略产生训练轨迹,如果策略本身已经难以触达正确解,强化学习阶段就会缺少可学习的正信号,甚至可能强化低质量搜索行为。BES 则先通过双向搜索找到更可靠的候选,再把这些候选用于训练,从源头改善训练数据质量。 从推理实验看,BES 在开放问题求解上平均值和最优值都更稳定,说明进化式重组并非只偶然产生个别高分解,而是能系统性降低搜索方差。对于需要程序、几何布局或多步操作的任务,这种稳定性尤其重要,因为实际应用中往往更关心固定预算下能否持续产出可复现的高质量答案。
论文进行了消融实验(图4),验证各组件贡献。由于正文节选未提供具体数值,我们只能说明:消融研究针对逻辑推理任务,分别测试去掉进化算子、去掉反向目标分解、或者替换为普通扩展的效果,结果证实了进化算子和反向分解各自的必要性。具体可参看原论文图4。 成本分析比较了 BES 与基线的墙钟时间和 API 成本,结果未在正文节选中详细给出,但提示 BES 在产生更高质量候选的同时,额外开销在可接受范围内。 图4:逻辑推理任务上的消融结果,展示进化算子与反向目标分解对 BES 性能的贡献。来源:原论文。
原文未明确说明局限性。但从论文方法推测,BES 的依赖包括:(1)需要设计可验证的子目标分解方式和对应的验证器,这在不同任务中可能需要手动适配;(2)进化算子的定义需要显式步骤序列,对于非结构化输出(如纯文本长段落),可能需要提示工程来实现;(2)计算成本相比简单采样有所增加,虽然实验显示在同等预算下仍优于基线。
这篇论文的更大价值在于把“搜索”重新放回语言模型自我改进的中心位置。对于高难推理任务,单纯扩大模型或增加采样未必能触达低概率但正确的解;更有效的路径可能是设计能跨候选迁移局部正确片段的搜索算子,并让验证器对中间结构给出更密集的信号。 同时,BES 也提示后训练与推理并不必然割裂:推理时搜索可以产生更好的最终答案,后训练时搜索可以产生更好的训练样本。一个强搜索器既能作为测试时计算的放大器,也能作为数据生成器改善下一轮模型能力。
本文精读基于以下原文: Guowei Xu, Zhenting Qi, Huangyuan Su, Weirui Ye, Himabindu Lakkaraju, Sham M. Kakade, Yilun Du. "Self-Improving Language Models with Bidirectional Evolutionary Search". arXiv:2605.28814v1 [cs.CL], May 2026. 原文链接:https://arxiv.org/abs/2605.28814v1