Expensive optimization problems (EOPs) are black-box tasks with costly objective evaluations and no gradient access, making the evaluation budget the key bottleneck. Surrogate-assisted evolutionary algorithms (SAEAs) reduce evaluations via surrogate predictions, but conventional surrogates often require frequent retraining as populations evolve, incurring overhead. This paper proposes R2SAEA, a reinforcement-trained relation-based large language model (LLM) surrogate assisted evolutionary algorithm. We cast relation-based surrogate modeling as an in-context pairwise reasoning task. To enable efficient inference in evolutionary loops, we develop an anchor-based iterative context construction strategy that reduces prompt complexity from quadratic to linear in population size, and a voting-based aggregation scheme that converts predicted relations into scores for offspring selection. We further build an RL pipeline from evolutionary trajectories and fine-tune Qwen2.5 with GRPO. Experiments on single- and multi-objective benchmarks show improved relation prediction and state-of-the-art optimization performance over strong SAEA baselines and general LLMs. Quantization also enables efficient edge deployment, supporting a zero-shot surrogate paradigm without per-generation retraining. Code and models are available at https://github.com/Septend9/R2SAEA.


翻译:昂贵优化问题(EOPs)指目标评估代价高昂且无法获取梯度的黑箱任务,评估预算成为关键瓶颈。代理辅助进化算法(SAEAs)通过代理预测减少评估次数,但传统代理模型在种群进化过程中通常需要频繁重训练,带来额外开销。本文提出R2SAEA——一种基于强化训练的关系型大语言模型(LLM)代理辅助进化算法。我们将基于关系的代理建模转化为上下文内成对推理任务。为实现进化循环中的高效推理,我们开发了锚点迭代式上下文构建策略,将提示复杂度从种群规模的二次方降至线性,并设计了基于投票的聚合方案,将预测关系转化为子代选择评分。进一步,我们构建了基于进化轨迹的强化学习流水线,利用GRPO对Qwen2.5进行微调。在单目标和多目标基准测试上的实验表明,相比强基线的SAEA算法及通用LLM,本方法在关系预测与优化性能上均达到最优水平。量化技术还支持高效的边缘端部署,实现了无需逐代重训练的零样本代理范式。代码与模型已开源至https://github.com/Septend9/R2SAEA。

0
下载
关闭预览

相关内容

大语言模型的智能体化推理
专知会员服务
35+阅读 · 1月21日
高效推理的集约化探索:大语言模型推理优化综述
专知会员服务
33+阅读 · 2025年4月1日
大语言模型在规划与调度问题上的应用
专知会员服务
53+阅读 · 2025年1月12日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
浅析神经协同过滤NCF在推荐系统的应用
凡人机器学习
15+阅读 · 2020年10月17日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
4+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员