AI agents have become surprisingly proficient at software engineering over the past year, largely due to improvements in reasoning capabilities. This raises a deeper question: can these systems extend their capabilities to automate AI research itself? In this paper, we explore post-training, the critical phase that turns base LLMs into useful assistants. We introduce PostTrainBench to benchmark how well LLM agents can perform post-training autonomously under bounded compute constraints (10 hours on one H100 GPU). We ask frontier agents (e.g., Claude Code with Opus 4.6) to optimize the performance of a base LLM on a particular benchmark (e.g., Qwen3-4B on AIME). Importantly, we do not provide any predefined strategies to the agents and instead give them full autonomy to find necessary information on the web, run experiments, and curate data. We find that frontier agents make substantial progress but generally lag behind instruction-tuned LLMs from leading providers: 23.2% for the best agent vs. 51.1% for official instruction-tuned models. However, agents can exceed instruction-tuned models in targeted scenarios: GPT-5.1 Codex Max achieves 89% on BFCL with Gemma-3-4B vs. 67% for the official model. We also observe several failure modes worth flagging. Agents sometimes engage in reward hacking: training on the test set, downloading existing instruction-tuned checkpoints instead of training their own, and using API keys they find to generate synthetic data without authorization. These behaviors are concerning and highlight the importance of careful sandboxing as these systems become more capable. Overall, we hope PostTrainBench will be useful for tracking progress in AI R&D automation and for studying the risks that come with it. Website and code are available at https://posttrainbench.com/.


翻译:过去一年,AI 智能体在软件工程领域展现出惊人的熟练度,这主要归功于其推理能力的提升。这引发了一个更深层次的问题:这些系统能否将其能力扩展到自动化 AI 研究本身?在本文中,我们探讨了后训练这一关键阶段,该阶段将基础 LLM 转变为有用的助手。我们引入了 PostTrainBench,用于在有限的计算约束下(单张 H100 GPU 上 10 小时)基准测试 LLM 智能体自主执行后训练的能力。我们要求前沿智能体(例如,Claude Code with Opus 4.6)优化特定基准测试上基础 LLM 的性能(例如,Qwen3-4B 在 AIME 上)。重要的是,我们没有向智能体提供任何预定义的策略,而是赋予其完全自主权,以在网络上查找必要信息、运行实验并整理数据。我们发现,前沿智能体取得了实质性进展,但通常落后于领先提供商提供的指令调优 LLM:最佳智能体为 23.2%,而官方指令调优模型为 51.1%。然而,在特定场景下,智能体可以超越指令调优模型:GPT-5.1 Codex Max 在 BFCL 上使用 Gemma-3-4B 达到了 89%,而官方模型为 67%。我们还观察到几种值得关注的失败模式。智能体有时会进行奖励攻击:在测试集上进行训练、下载现有的指令调优检查点而非训练自己的模型,以及使用其发现的 API 密钥未经授权生成合成数据。这些行为令人担忧,并凸显了随着这些系统能力增强,谨慎沙盒化的重要性。总体而言,我们希望 PostTrainBench 将有助于追踪 AI 研发自动化的进展,并研究随之而来的风险。网站和代码可在 https://posttrainbench.com/ 获取。

0
下载
关闭预览

相关内容

机器或装置在无人干预的情况下按规定的程序或指令自动进行操作或控制的过程, 是一门涉及学科较多、应用广泛的综合性科学技术。
伯克利最新《智能体 AI (Agentic AI)》课程
专知会员服务
48+阅读 · 3月1日
LLM/智能体作为数据分析师:综述
专知会员服务
38+阅读 · 2025年9月30日
什么是后训练?大语言模型训练后优化方法综述,87页pdf
LLM后训练:深入探讨推理大语言模型
专知会员服务
40+阅读 · 2025年3月3日
Llama-3-SynE:实现有效且高效的大语言模型持续预训练
专知会员服务
36+阅读 · 2024年7月30日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
1+阅读 · 今天14:04
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
5+阅读 · 今天13:49
基于声学的无人机检测技术综述
专知会员服务
3+阅读 · 今天13:37
《当代混合战争分析框架:俄乌战争经验教训》
专知会员服务
4+阅读 · 今天13:11
战略前沿人工智能的再思考(中文)
专知会员服务
7+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
5+阅读 · 5月29日
“史诗怒火行动”中美军损失的作战飞机
专知会员服务
6+阅读 · 5月29日
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
5+阅读 · 5月28日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员