Forecasting when AI systems will become capable of meaningfully accelerating AI research is a central challenge for AI safety. Existing benchmarks measure broad capability growth, but may not provide ample early warning signals for recursive self-improvement. We propose measuring AI's capability to autonomously implement end-to-end machine learning pipelines from past AI research breakthroughs, given a minimal task description. By providing a concise task description instead of the full prior work as reference, we hope to better elicit emerging AI research taste. We introduce a proof-of-concept benchmark in which frontier coding agents autonomously implement an AlphaZero-style machine learning pipeline for Connect Four on consumer hardware within a three-hour budget, and we evaluate the resulting game AIs in a round-robin tournament anchored to the Pascal Pons Connect Four solver. Across four agents with eight trials each, we find substantial differentiation: Claude Opus 4.7 won as first-mover against Pons in seven of eight trials, statistically significantly better than the other agents tested, none of which exceeded two of eight. The task, which no frontier agent could reliably complete when we began development in January of 2026, is now near-saturation. Our evaluation also surfaced anomalous behavior in GPT-5.4, which consistently used far less of its allocated time budget than other agents. A follow-up 16-trial probe using shorter, less evaluation-coded prompts substantially increased GPT-5.4's time-budget usage, consistent with but not diagnostic of sandbagging; Bradley-Terry ratings across probe conditions showed only directional differences, despite significant differences in time-budget usage. We release our data, code, and prompts to support reproduction and extension.


翻译:预测AI系统何时能够实质性加速AI研究是AI安全领域的核心挑战。现有基准测试衡量广泛能力增长,但可能无法为递归式自我改进提供充足的早期预警信号。我们提出通过测量AI自主实现过往AI研究突破中的端到端机器学习流程的能力(基于最小化任务描述),来评估其研究品味。通过提供简洁任务描述而非完整参考文献,我们期望更有效地激发新兴AI研究品味。我们引入概念验证基准:前沿编码Agent需在三小时预算内,在消费级硬件上自主实现面向四子棋的AlphaZero风格机器学习流程,并通过循环赛制与Pascal Pons四子棋求解器进行锚定比较。在四个Agent各八次试验中,我们发现显著分化:Claude Opus 4.7在对阵Pons的八次试验中有七次作为先手获胜,统计学上显著优于其他测试Agent(最高未超过两次)。该任务在2026年1月项目启动时尚无前沿Agent可稳定完成,现接近饱和。评估同时发现GPT-5.4的异常行为——该模型始终使用远少于其他Agent的分配时间预算。后续采用更简短、评估编码较少的提示词进行的16次试验探测,显著增加了GPT-5.4的时间预算使用率,这与伪装性能下降现象一致但尚不能完全确诊;尽管时间预算使用率存在显著差异,探测条件间Bradley-Terry评分仅呈现方向性差异。我们开源数据、代码及提示词以支持复现与扩展研究。

0
下载
关闭预览

相关内容

人工智能杂志AI(Artificial Intelligence)是目前公认的发表该领域最新研究成果的主要国际论坛。该期刊欢迎有关AI广泛方面的论文,这些论文构成了整个领域的进步,也欢迎介绍人工智能应用的论文,但重点应该放在新的和新颖的人工智能方法如何提高应用领域的性能,而不是介绍传统人工智能方法的另一个应用。关于应用的论文应该描述一个原则性的解决方案,强调其新颖性,并对正在开发的人工智能技术进行深入的评估。 官网地址:http://dblp.uni-trier.de/db/journals/ai/
前沿人工智能趋势报告(Frontier AI Trends Report)
专知会员服务
39+阅读 · 2025年12月20日
AI Agent深度(二):2025 Agent元年,AI从L2向L3发展
专知会员服务
45+阅读 · 2025年5月5日
AI专题·Agent:智能体基建厚积薄发,商业化应用曙光乍现
人工智能赋能数字兵棋推演以支持决策
专知会员服务
46+阅读 · 2024年10月7日
自生成兵棋AI:基于大型语言模型的双层Agent任务规划
专知会员服务
92+阅读 · 2024年4月11日
AutoGPT太火了,无需人类插手自主完成任务,GitHub2.7万星
专知会员服务
44+阅读 · 2023年4月14日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
类脑计算的前沿论文,看我们推荐的这7篇
人工智能前沿讲习班
21+阅读 · 2019年1月7日
Java 工程师快速入门深度学习,可以从 Deeplearning4j 开始
人工智能头条
13+阅读 · 2018年12月14日
尽早跑通深度学习的实践代码,是入门深度学习的最快途径
算法与数据结构
22+阅读 · 2017年12月13日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
52+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
7+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
前沿人工智能趋势报告(Frontier AI Trends Report)
专知会员服务
39+阅读 · 2025年12月20日
AI Agent深度(二):2025 Agent元年,AI从L2向L3发展
专知会员服务
45+阅读 · 2025年5月5日
AI专题·Agent:智能体基建厚积薄发,商业化应用曙光乍现
人工智能赋能数字兵棋推演以支持决策
专知会员服务
46+阅读 · 2024年10月7日
自生成兵棋AI:基于大型语言模型的双层Agent任务规划
专知会员服务
92+阅读 · 2024年4月11日
AutoGPT太火了,无需人类插手自主完成任务,GitHub2.7万星
专知会员服务
44+阅读 · 2023年4月14日
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
52+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员