Many program synthesis tasks prove too challenging for even state-of-the-art language models to solve in single attempts. Search-based evolutionary methods offer a promising alternative by exploring solution spaces iteratively, but their effectiveness remain limited by the fixed capabilities of the underlying generative model. We propose SOAR, a method that learns program synthesis by integrating language models into a self-improving evolutionary loop. SOAR alternates between (1) an evolutionary search that uses an LLM to sample and refine candidate solutions, and (2) a hindsight learning phase that converts search attempts into valid problem-solution pairs used to fine-tune the LLM's sampling and refinement capabilities\, -- \,enabling increasingly effective search in subsequent iterations. On the challenging ARC-AGI benchmark, SOAR achieves significant performance gains across model scales and iterations, leveraging positive transfer between the sampling and refinement finetuning tasks. These improvements carry over to test-time adaptation, enabling SOAR to solve 52\% of the public test set. Our code is open-sourced at: https://github.com/flowersteam/SOAR


翻译:许多程序综合任务对于当前最先进的语言模型而言,即使单次尝试也难以解决。基于搜索的演化方法通过迭代探索解空间提供了一种有前景的替代方案,但其效果仍受限于底层生成模型固有能力。我们提出SOAR方法,该方法通过将语言模型整合到自改进演化循环中来实现程序综合学习。SOAR交替执行两个阶段:(1) 利用LLM采样并优化候选解的演化搜索;(2) 后见学习阶段,将搜索尝试转化为有效的问题-解决方案对,用于微调LLM的采样与优化能力——从而在后续迭代中实现持续增强的搜索效能。在具有挑战性的ARC-AGI基准测试中,SOAR通过采样与优化微调任务间的正向迁移,在不同模型规模和迭代次数上均实现了显著的性能提升。这些改进效果可延续至测试时适应阶段,使SOAR能够解决公开测试集中52%的问题。我们的代码已开源:https://github.com/flowersteam/SOAR

0
下载
关闭预览

相关内容

BES:让语言模型通过双向进化搜索自我改进
专知会员服务
5+阅读 · 5月30日
多模态大语言模型的自我改进:综述
专知会员服务
28+阅读 · 2025年10月8日
通过强化学习增强代码生成中的代码大语言模型:综述
专知会员服务
29+阅读 · 2025年1月1日
大语言模型算法演进综述
专知会员服务
81+阅读 · 2024年5月30日
大模型如何迭代?北大等《大型语言模型自我进化》综述
预训练语言模型的应用综述
专知会员服务
36+阅读 · 2023年1月23日
专知会员服务
61+阅读 · 2021年5月28日
专知会员服务
123+阅读 · 2020年12月9日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
一文看懂AutoEncoder模型演进图谱
AINLP
12+阅读 · 2019年6月17日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
超越网格:作战环境对炮兵的影响
专知会员服务
2+阅读 · 5月31日
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
5+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
4+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
17+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
8+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
相关VIP内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
5+阅读 · 5月30日
多模态大语言模型的自我改进:综述
专知会员服务
28+阅读 · 2025年10月8日
通过强化学习增强代码生成中的代码大语言模型:综述
专知会员服务
29+阅读 · 2025年1月1日
大语言模型算法演进综述
专知会员服务
81+阅读 · 2024年5月30日
大模型如何迭代?北大等《大型语言模型自我进化》综述
预训练语言模型的应用综述
专知会员服务
36+阅读 · 2023年1月23日
专知会员服务
61+阅读 · 2021年5月28日
专知会员服务
123+阅读 · 2020年12月9日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员