LLM-guided evolutionary methods such as AlphaEvolve have proven effective in domains like math, systems research, and algorithmic discovery, but their reliance on frontier models makes each run expensive. We argue this is largely an artifact of how existing frameworks allocate search: archives that fail to preserve solution diversity force compensation through stronger mutation models; blind model use spends frontier dollars on local edits a smaller model could handle; and full-set evaluation wastes rollouts on redundant examples. We introduce LEVI, a harness-first evolutionary framework built on the bet that stronger search architectures can substitute for or even outperform larger LLMs in evolutionary search. LEVI improves on three core components of evolutionary search: a solution database that establishes diversity from the beginning, and then maintains it throughout the run; a smarter mutation router that plays into the strengths of large and small LLMs; and a rank-preserving proxy benchmark for rollout-heavy settings. Across systems-research benchmarks LEVI attains the highest score on a budget 3.3-6.7x smaller than the published frontier-model runs of existing frameworks like ShinkaEvolve, GEPA, and AdaEvolve; on one problem, LEVI matches the existing best at a 35x lower cost. On prompt optimization, LEVI matches or exceeds GEPA at less than half of its rollout budget on four different benchmarks. LEVI is available as an open-source framework at https://github.com/ttanv/levi.


翻译:摘要:大语言模型引导的进化方法(如AlphaEvolve)已在数学、系统研究和算法发现等领域展现出有效性,但其对最前沿模型的依赖使每次运行成本高昂。我们认为这主要源于现有搜索架构的分配缺陷:无法保持解多样性的存档迫使模型通过更强的变异机制进行补偿;盲目使用大模型将本地编辑任务(小模型即可胜任)消耗在最前沿模型上;全集评估则将冗余样本浪费在重复示例上。我们提出LEVI——一种基于"更强的搜索架构可替代甚至超越更大规模大语言模型在进化搜索中表现"这一信念的优先框架。LEVI对进化搜索的三个核心组件进行了改进:从初始阶段建立多样性并在整个运行过程中维持多样性的解数据库;发挥大小模型各自优势的智能变异路由器;以及适用于高开销场景的保序代理基准。在系统研究基准测试中,LEVI以比现有框架(如ShinkaEvolve、GEPA和AdaEvolve)已发布的最前沿模型运行预算小3.3-6.7倍的成本取得最佳分数;在某个问题上,LEVI以35倍更低的成本达到现有最优水平。在提示优化任务中,LEVI在四个不同基准测试中使用不到GEPA一半的评估预算即可匹配或超越其性能。LEVI作为开源框架发布于https://github.com/ttanv/levi。

0
下载
关闭预览

相关内容

互联网
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
8+阅读 · 5月30日
大语言模型中的检索与结构化增强生成综述
专知会员服务
34+阅读 · 2025年9月17日
大语言模型算法演进综述
专知会员服务
81+阅读 · 2024年5月30日
大模型如何迭代?北大等《大型语言模型自我进化》综述
一文速览大语言模型提示最新进展
专知会员服务
80+阅读 · 2023年12月24日
《大语言模型进展》69页ppt,谷歌研究科学家Jason Wei
专知会员服务
87+阅读 · 2022年10月29日
强化学习的两大话题之一,仍有极大探索空间
AI科技评论
22+阅读 · 2020年8月22日
基于关系网络的视觉建模:有望替代卷积神经网络
微软研究院AI头条
10+阅读 · 2019年7月12日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员