Synthetic Sandbox for Training Machine Learning Engineering Agents

As large language model agents advance beyond software engineering (SWE) tasks toward machine learning engineering (MLE), verifying agent behavior becomes orders of magnitude more expensive: while SWE tasks can be verified via fast-executing unit tests, MLE verification requires running full ML pipelines -- data preprocessing, model training, and metric evaluation -- on large datasets at each rollout step, rendering trajectory-wise on-policy reinforcement learning (RL) prohibitively slow. Existing approaches retreat to supervised fine-tuning (SFT) or offline proxy rewards, sacrificing the exploration and generalization benefits of on-policy RL. We observe that sandbox data size is the primary source of this bottleneck. Based on this insight, we introduce SandMLE, a multi-agent framework that generates diverse, verifiable synthetic MLE environments from a small number of seed tasks, preserving the structural and technical complexity of real-world problems while constraining datasets to micro-scale (each task is paired with only 50-200 training samples). Through extensive experiments, we show that SandMLE reduces execution time by over 13 times, enabling large-scale, on-policy trajectory-wise RL for the first time in the MLE domain. On MLE-bench-lite, SandMLE yields significant gains over SFT baselines across Qwen3-8B, 14B, and 30B-A3B, with relative medal rate improvements ranging from 20.3% to 66.9%. Furthermore, the trained policy generalizes across unseen agentic scaffolds, achieving up to 32.4% better HumanRank score on MLE-Dojo.

翻译：随着大语言模型智能体从软件工程（SWE）任务向机器学习工程（MLE）领域迈进，验证智能体行为的成本呈数量级增长：SWE任务可通过快速执行的单元测试验证，而MLE验证则需要每次策略更新时，在大型数据集上运行完整的机器学习流水线——包括数据预处理、模型训练和指标评估，这使得基于轨迹的在策略强化学习（RL）变得极其缓慢。现有方法退而求其次采用监督微调（SFT）或离线代理奖励，牺牲了在策略强化学习的探索与泛化优势。我们发现沙箱数据规模是这一瓶颈的主要来源。基于这一洞察，我们提出SandMLE，这是一个多智能体框架，能够从少量种子任务生成多样且可验证的合成MLE环境，在保持现实问题结构与技术复杂性的同时，将数据集规模限制在微观级别（每个任务仅配备50-200个训练样本）。通过大量实验表明，SandMLE将执行时间降低了13倍以上，首次在MLE领域实现了大规模、基于轨迹的在策略强化学习。在MLE-bench-lite基准上，SandMLE在Qwen3-8B、14B和30B-A3B模型上均显著优于SFT基线方法，奖牌率相对提升幅度达20.3%至66.9%。此外，训练后的策略可泛化至未见过的智能体框架，在MLE-Dojo上HumanRank分数最高提升32.4%。

相关内容

极大似然估计

关注 5

极大似然估计方法（Maximum Likelihood Estimate，MLE）也称为最大概似估计或最大似然估计，是求估计的另一种方法，最大概似是1821年首先由德国数学家高斯（C. F. Gauss）提出，但是这个方法通常被归功于英国的统计学家罗纳德·费希尔（R. A. Fisher）它是建立在极大似然原理的基础上的一个统计方法，极大似然原理的直观想法是，一个随机试验如有若干个可能的结果A，B，C，... ，若在一次试验中，结果A出现了，那么可以认为实验条件对A的出现有利，也即出现的概率P(A)较大。极大似然原理的直观想法我们用下面例子说明。设甲箱中有99个白球，1个黑球；乙箱中有1个白球．99个黑球。现随机取出一箱，再从抽取的一箱中随机取出一球，结果是黑球，这一黑球从乙箱抽取的概率比从甲箱抽取的概率大得多，这时我们自然更多地相信这个黑球是取自乙箱的。一般说来，事件A发生的概率与某一未知参数theta有关， theta取值不同，则事件A发生的概率P(A/theta)也不同，当我们在一次试验中事件A发生了，则认为此时的theta值应是t的一切可能取值中使P(A/theta)达到最大的那一个，极大似然估计法就是要选取这样的t值作为参数t的估计值，使所选取的样本在被选的总体中出现的可能性为最大。

重磅综述｜大模型智能体环境工程：建模、合成、评估与协同演化

专知会员服务

21+阅读 · 6月11日

《通过自然语言与强化学习奖励机制将军事条令与目标融入AI智能体》

专知会员服务

18+阅读 · 6月9日

智能体技能综合综述：分类、技术与应用

专知会员服务

35+阅读 · 5月11日

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

专知会员服务

35+阅读 · 4月19日