Autonomous AI research has advanced rapidly, but long-horizon ML research engineering remains difficult: agents must sustain coherent progress across task comprehension, environment setup, implementation, experimentation, and debugging over hours or days. We introduce AiScientist, a system for autonomous long-horizon engineering for ML research built on a simple principle: strong long-horizon performance requires both structured orchestration and durable state continuity. To this end, AiScientist combines hierarchical orchestration with a permission-scoped File-as-Bus workspace: a top-level Orchestrator maintains stage-level control through concise summaries and a workspace map, while specialized agents repeatedly re-ground on durable artifacts such as analyses, plans, code, and experimental evidence rather than relying primarily on conversational handoffs, yielding thin control over thick state. Across two complementary benchmarks, AiScientist improves PaperBench score by 10.54 points on average over the best matched baseline and achieves 81.82 Any Medal% on MLE-Bench Lite. Ablation studies further show that File-as-Bus protocol is a key driver of performance, reducing PaperBench by 6.41 points and MLE-Bench Lite by 31.82 points when removed. These results suggest that long-horizon ML research engineering is a systems problem of coordinating specialized work over durable project state, rather than a purely local reasoning problem.


翻译:自主AI研究已取得快速进展,但机器学习研究中的长周期工程仍然面临挑战:智能体必须在数小时乃至数天内,在任务理解、环境搭建、实现、实验与调试等环节维持连贯进展。我们提出AiScientist系统,该系统基于一个简洁原则实现ML研究的自主长周期工程:强长周期性能需要结构化编排与持久状态连续性。为此,AiScientist将分层编排与基于权限范围的"文件即总线"(File-as-Bus)工作空间相结合:顶层编排器(Orchestrator)通过简洁摘要与工作空间地图维护阶段级控制,而专业智能体则反复基于持久化产物(如分析报告、计划、代码与实验证据)重新建立认知基础,而非主要依赖对话式交接,从而以稀疏控制实现厚重状态管理。在两个互补基准测试中,AiScientist在PaperBench上的平均得分较最优匹配基线提升10.54分,在MLE-Bench Lite上达到81.82%的任意奖牌率。消融实验进一步表明,"文件即总线"协议是性能的关键驱动因素:移除该协议后PaperBench下降6.41分,MLE-Bench Lite下降31.82分。这些结果表明,长周期ML研究工程本质上是关于在持久项目状态下协调专业工作的系统性问题,而非纯粹局部推理问题。

0
下载
关闭预览

相关内容

AutoResearch AI综述:迈向AI驱动的科学发现自动化
专知会员服务
15+阅读 · 5月26日
基于动态知识图谱的人工智能代理自主研究周期 | 文献
专知会员服务
27+阅读 · 2025年10月24日
从面向科学的人工智能到智能体科学:自主科学发现综述
概述自动机器学习(AutoML)
人工智能学家
19+阅读 · 2019年8月11日
【综述】自动机器学习AutoML最新65页综述,带你了解最新进展
中国人工智能学会
48+阅读 · 2019年5月3日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
Arxiv
0+阅读 · 3月6日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
6+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员