AceGRPO: Adaptive Curriculum Enhanced Group Relative Policy Optimization for Autonomous Machine Learning Engineering

Autonomous Machine Learning Engineering (MLE) requires agents to perform sustained, iterative optimization over long horizons. While recent LLM-based agents show promise, current prompt-based agents for MLE suffer from behavioral stagnation due to frozen parameters. Although Reinforcement Learning (RL) offers a remedy, applying it to MLE is hindered by prohibitive execution latency and inefficient data selection. Recognizing these challenges, we propose AceGRPO with two core components: (1) Evolving Data Buffer that continuously repurposes execution traces into reusable training tasks, and (2) Adaptive Sampling guided by a Learnability Potential function, which dynamically prioritizes tasks at the agent's learning frontier to maximize learning efficiency. Leveraging AceGRPO, our trained Ace-30B model achieves a 100% valid submission rate on MLE-Bench-Lite, approaches the performance of proprietary frontier models, and outperforms larger open-source baselines (e.g., DeepSeek-V3.2), demonstrating robust capability for sustained iterative optimization. Code is available at https://github.com/yuzhu-cai/AceGRPO.

翻译：自主机器学习工程（MLE）要求智能体在长周期内执行持续、迭代的优化。尽管近期基于大语言模型（LLM）的智能体展现出潜力，但当前用于MLE的基于提示的智能体因参数冻结而存在行为停滞问题。虽然强化学习（RL）提供了一种解决方案，但其在MLE中的应用受到高昂的执行延迟和低效数据选择的阻碍。认识到这些挑战，我们提出了AceGRPO，其包含两个核心组件：（1）演化数据缓冲区，持续将执行轨迹转化为可重用的训练任务；（2）基于可学习性潜力函数的自适应采样，动态优先处理智能体学习前沿的任务，以最大化学习效率。利用AceGRPO，我们训练的Ace-30B模型在MLE-Bench-Lite上实现了100%的有效提交率，接近专有前沿模型的性能，并超越了更大的开源基线模型（例如DeepSeek-V3.2），展现了持续迭代优化的强大能力。代码发布于 https://github.com/yuzhu-cai/AceGRPO。

相关内容

极大似然估计

关注 5

极大似然估计方法（Maximum Likelihood Estimate，MLE）也称为最大概似估计或最大似然估计，是求估计的另一种方法，最大概似是1821年首先由德国数学家高斯（C. F. Gauss）提出，但是这个方法通常被归功于英国的统计学家罗纳德·费希尔（R. A. Fisher）它是建立在极大似然原理的基础上的一个统计方法，极大似然原理的直观想法是，一个随机试验如有若干个可能的结果A，B，C，... ，若在一次试验中，结果A出现了，那么可以认为实验条件对A的出现有利，也即出现的概率P(A)较大。极大似然原理的直观想法我们用下面例子说明。设甲箱中有99个白球，1个黑球；乙箱中有1个白球．99个黑球。现随机取出一箱，再从抽取的一箱中随机取出一球，结果是黑球，这一黑球从乙箱抽取的概率比从甲箱抽取的概率大得多，这时我们自然更多地相信这个黑球是取自乙箱的。一般说来，事件A发生的概率与某一未知参数theta有关， theta取值不同，则事件A发生的概率P(A/theta)也不同，当我们在一次试验中事件A发生了，则认为此时的theta值应是t的一切可能取值中使P(A/theta)达到最大的那一个，极大似然估计法就是要选取这样的t值作为参数t的估计值，使所选取的样本在被选的总体中出现的可能性为最大。

【博士论文】多目标奖励与偏好优化：理论与算法

专知会员服务

32+阅读 · 2025年12月12日

面向大语言模型的智能体化强化学习图景：综述

专知会员服务

55+阅读 · 2025年9月3日

《单智能体与多智能体深度强化学习方法的优化研究》219页

专知会员服务

51+阅读 · 2025年4月5日

自动驾驶中的多智能体强化学习综述

专知会员服务

47+阅读 · 2024年8月20日