Toward Autonomous Long-Horizon Engineering for ML Research - 专知论文

会员服务 ·

0

ML · 系统 · 总线 · 极大似然估计 · AI ·

Toward Autonomous Long-Horizon Engineering for ML Research

翻译：面向ML研究的自主长周期工程

Guoxin Chen,Jie Chen,Lei Chen,Jiale Zhao,Fanzhe Meng,Wayne Xin Zhao,Ruihua Song,Cheng Chen,Ji-Rong Wen,Kai Jia

from arxiv, Repo: https://github.com/AweAI-Team/AiScientist

Autonomous AI research has advanced rapidly, but long-horizon ML research engineering remains difficult: agents must sustain coherent progress across task comprehension, environment setup, implementation, experimentation, and debugging over hours or days. We introduce AiScientist, a system for autonomous long-horizon engineering for ML research built on a simple principle: strong long-horizon performance requires both structured orchestration and durable state continuity. To this end, AiScientist combines hierarchical orchestration with a permission-scoped File-as-Bus workspace: a top-level Orchestrator maintains stage-level control through concise summaries and a workspace map, while specialized agents repeatedly re-ground on durable artifacts such as analyses, plans, code, and experimental evidence rather than relying primarily on conversational handoffs, yielding thin control over thick state. Across two complementary benchmarks, AiScientist improves PaperBench score by 10.54 points on average over the best matched baseline and achieves 81.82 Any Medal% on MLE-Bench Lite. Ablation studies further show that File-as-Bus protocol is a key driver of performance, reducing PaperBench by 6.41 points and MLE-Bench Lite by 31.82 points when removed. These results suggest that long-horizon ML research engineering is a systems problem of coordinating specialized work over durable project state, rather than a purely local reasoning problem.

翻译：自主AI研究已取得快速进展，但机器学习研究中的长周期工程仍然面临挑战：智能体必须在数小时乃至数天内，在任务理解、环境搭建、实现、实验与调试等环节维持连贯进展。我们提出AiScientist系统，该系统基于一个简洁原则实现ML研究的自主长周期工程：强长周期性能需要结构化编排与持久状态连续性。为此，AiScientist将分层编排与基于权限范围的"文件即总线"（File-as-Bus）工作空间相结合：顶层编排器（Orchestrator）通过简洁摘要与工作空间地图维护阶段级控制，而专业智能体则反复基于持久化产物（如分析报告、计划、代码与实验证据）重新建立认知基础，而非主要依赖对话式交接，从而以稀疏控制实现厚重状态管理。在两个互补基准测试中，AiScientist在PaperBench上的平均得分较最优匹配基线提升10.54分，在MLE-Bench Lite上达到81.82%的任意奖牌率。消融实验进一步表明，"文件即总线"协议是性能的关键驱动因素：移除该协议后PaperBench下降6.41分，MLE-Bench Lite下降31.82分。这些结果表明，长周期ML研究工程本质上是关于在持久项目状态下协调专业工作的系统性问题，而非纯粹局部推理问题。

0

相关内容

AUTOLAB：86亿Token实测前沿模型的长程自动科研能力

AUTOLAB：86亿Token实测前沿模型的长程自动科研能力

专知会员服务

13+阅读 · 6月12日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

10+阅读 · 5月29日

AutoResearch AI综述：迈向AI驱动的科学发现自动化

AutoResearch AI综述：迈向AI驱动的科学发现自动化

专知会员服务

15+阅读 · 5月26日

基于动态知识图谱的人工智能代理自主研究周期 | 文献

基于动态知识图谱的人工智能代理自主研究周期 | 文献

专知会员服务

27+阅读 · 2025年10月24日

从面向科学的人工智能到智能体科学：自主科学发现综述

从面向科学的人工智能到智能体科学：自主科学发现综述

专知会员服务

54+阅读 · 2025年8月21日

【ETHZ博士论文】利用时间信息：自回归模型中长期依赖性学习的方法

【ETHZ博士论文】利用时间信息：自回归模型中长期依赖性学习的方法

专知会员服务

25+阅读 · 2024年1月2日

推荐！《人工智能和战术自主性的最新进展：现状、挑战和展望》万字译文，2022.12最新22页综述论文，美霍华德大学国防部人工智能和机器学习卓越中心：第一篇论述战术自主性当前重要趋势、战略、关键挑战、战术复杂性和未来研究方向

推荐！《人工智能和战术自主性的最新进展：现状、挑战和展望》万字译文，2022.12最新22页综述论文，美霍华德大学国防部人工智能和机器学习卓越中心：第一篇论述战术自主性当前重要趋势、战略、关键挑战、战术复杂性和未来研究方向

专知会员服务

105+阅读 · 2023年1月29日

最新《自动化机器学习》报告，73页ppt建模阐述AutoML进展，附书籍

最新《自动化机器学习》报告，73页ppt建模阐述AutoML进展，附书籍

专知会员服务

114+阅读 · 2022年8月26日

最新《自动机器学习》综述论文，AutoML: A Survey of the State-of-the-Art

最新《自动机器学习》综述论文，AutoML: A Survey of the State-of-the-Art

专知会员服务

93+阅读 · 2020年7月10日

【Google大脑】AutoML-Zero: 从无到有演化机器学习算法，Evolving Machine Learning

专知会员服务

26+阅读 · 2020年3月11日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

27+阅读 · 2022年11月24日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

干货教程！百度AutoDL「自动深度学习: 理论、算法、平台和应用」132PPT

干货教程！百度AutoDL「自动深度学习: 理论、算法、平台和应用」132PPT

专知

21+阅读 · 2020年2月5日

【AutoML】自动机器学习：最近进展研究综述 AutoML：A survey of State-of-the-art

【AutoML】自动机器学习：最近进展研究综述 AutoML：A survey of State-of-the-art

产业智能官

15+阅读 · 2019年8月13日

概述自动机器学习（AutoML）

概述自动机器学习（AutoML）

人工智能学家

19+阅读 · 2019年8月11日

【干货】AutoML自动机器学习：最新进展综述

【干货】AutoML自动机器学习：最新进展综述

专知

27+阅读 · 2019年8月9日

【综述】自动机器学习AutoML最新65页综述，带你了解最新进展

【综述】自动机器学习AutoML最新65页综述，带你了解最新进展

中国人工智能学会

48+阅读 · 2019年5月3日

《终身学习、可解释ML、异常检测、对抗攻击》一览讲解，台大李宏毅老师2019机器学习课程讲义PPT

《终身学习、可解释ML、异常检测、对抗攻击》一览讲解，台大李宏毅老师2019机器学习课程讲义PPT

专知

22+阅读 · 2019年4月13日

手动特征工程已经OUT了！自动特征工程才是改进机器学习的方式

手动特征工程已经OUT了！自动特征工程才是改进机器学习的方式

AI100

11+阅读 · 2018年9月4日

基于复杂耦合时间线的深空探测器自主任务规划方法研究

国家自然科学基金

3+阅读 · 2017年12月31日

一些流体力学方程的长时间动力学行为

国家自然科学基金

0+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

面向智能机器人柔性装配系统自主控制的主动视觉感知技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

47+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

多智能体系统有限时间一致性的自适应控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向电子制造的多机器人高速协调的关键理论与方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses

Arxiv

0+阅读 · 4月30日

AgentWard: A Lifecycle Security Architecture for Autonomous AI Agents

Arxiv

0+阅读 · 4月27日

From Research Question to Scientific Workflow: Leveraging Agentic AI for Science Automation

Arxiv

0+阅读 · 4月23日

AutoSOTA: An End-to-End Automated Research System for State-of-the-Art AI Model Discovery

Arxiv

0+阅读 · 4月7日

Self-Optimizing Multi-Agent Systems for Deep Research

Arxiv

0+阅读 · 4月3日

Bilevel Autoresearch: Meta-Autoresearching Itself

Arxiv

0+阅读 · 3月24日

LHAW: Controllable Underspecification for Long-Horizon Tasks

Arxiv

0+阅读 · 3月20日

Towards Autonomous Mathematics Research

Arxiv

0+阅读 · 3月6日

LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces

Arxiv

0+阅读 · 2月26日

SelfAI: A self-directed framework for long-horizon scientific discovery

Arxiv

0+阅读 · 2月22日

VIP会员

文章信息

相关主题

极大似然估计

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

4+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

6+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

6+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

6+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

22+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

AUTOLAB：86亿Token实测前沿模型的长程自动科研能力

AUTOLAB：86亿Token实测前沿模型的长程自动科研能力

专知会员服务

13+阅读 · 6月12日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

10+阅读 · 5月29日

AutoResearch AI综述：迈向AI驱动的科学发现自动化

AutoResearch AI综述：迈向AI驱动的科学发现自动化

专知会员服务

15+阅读 · 5月26日

基于动态知识图谱的人工智能代理自主研究周期 | 文献

基于动态知识图谱的人工智能代理自主研究周期 | 文献

专知会员服务

27+阅读 · 2025年10月24日

从面向科学的人工智能到智能体科学：自主科学发现综述

从面向科学的人工智能到智能体科学：自主科学发现综述

专知会员服务

54+阅读 · 2025年8月21日

【ETHZ博士论文】利用时间信息：自回归模型中长期依赖性学习的方法

【ETHZ博士论文】利用时间信息：自回归模型中长期依赖性学习的方法

专知会员服务

25+阅读 · 2024年1月2日

推荐！《人工智能和战术自主性的最新进展：现状、挑战和展望》万字译文，2022.12最新22页综述论文，美霍华德大学国防部人工智能和机器学习卓越中心：第一篇论述战术自主性当前重要趋势、战略、关键挑战、战术复杂性和未来研究方向

推荐！《人工智能和战术自主性的最新进展：现状、挑战和展望》万字译文，2022.12最新22页综述论文，美霍华德大学国防部人工智能和机器学习卓越中心：第一篇论述战术自主性当前重要趋势、战略、关键挑战、战术复杂性和未来研究方向

专知会员服务

105+阅读 · 2023年1月29日

最新《自动化机器学习》报告，73页ppt建模阐述AutoML进展，附书籍

最新《自动化机器学习》报告，73页ppt建模阐述AutoML进展，附书籍

专知会员服务

114+阅读 · 2022年8月26日

最新《自动机器学习》综述论文，AutoML: A Survey of the State-of-the-Art

最新《自动机器学习》综述论文，AutoML: A Survey of the State-of-the-Art

专知会员服务

93+阅读 · 2020年7月10日

【Google大脑】AutoML-Zero: 从无到有演化机器学习算法，Evolving Machine Learning

专知会员服务

26+阅读 · 2020年3月11日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

27+阅读 · 2022年11月24日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

干货教程！百度AutoDL「自动深度学习: 理论、算法、平台和应用」132PPT

干货教程！百度AutoDL「自动深度学习: 理论、算法、平台和应用」132PPT

专知

21+阅读 · 2020年2月5日

【AutoML】自动机器学习：最近进展研究综述 AutoML：A survey of State-of-the-art

【AutoML】自动机器学习：最近进展研究综述 AutoML：A survey of State-of-the-art

产业智能官

15+阅读 · 2019年8月13日

概述自动机器学习（AutoML）

概述自动机器学习（AutoML）

人工智能学家

19+阅读 · 2019年8月11日

【干货】AutoML自动机器学习：最新进展综述

【干货】AutoML自动机器学习：最新进展综述

专知

27+阅读 · 2019年8月9日

【综述】自动机器学习AutoML最新65页综述，带你了解最新进展

【综述】自动机器学习AutoML最新65页综述，带你了解最新进展

中国人工智能学会

48+阅读 · 2019年5月3日

《终身学习、可解释ML、异常检测、对抗攻击》一览讲解，台大李宏毅老师2019机器学习课程讲义PPT

《终身学习、可解释ML、异常检测、对抗攻击》一览讲解，台大李宏毅老师2019机器学习课程讲义PPT

专知

22+阅读 · 2019年4月13日

手动特征工程已经OUT了！自动特征工程才是改进机器学习的方式

手动特征工程已经OUT了！自动特征工程才是改进机器学习的方式

AI100

11+阅读 · 2018年9月4日

相关论文

Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses

Arxiv

0+阅读 · 4月30日

AgentWard: A Lifecycle Security Architecture for Autonomous AI Agents

Arxiv

0+阅读 · 4月27日

From Research Question to Scientific Workflow: Leveraging Agentic AI for Science Automation

Arxiv

0+阅读 · 4月23日

AutoSOTA: An End-to-End Automated Research System for State-of-the-Art AI Model Discovery

Arxiv

0+阅读 · 4月7日

Self-Optimizing Multi-Agent Systems for Deep Research

Arxiv

0+阅读 · 4月3日

Bilevel Autoresearch: Meta-Autoresearching Itself

Arxiv

0+阅读 · 3月24日

LHAW: Controllable Underspecification for Long-Horizon Tasks

Arxiv

0+阅读 · 3月20日

Towards Autonomous Mathematics Research

Arxiv

0+阅读 · 3月6日

LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces

Arxiv

0+阅读 · 2月26日

SelfAI: A self-directed framework for long-horizon scientific discovery

Arxiv

0+阅读 · 2月22日

相关基金

基于复杂耦合时间线的深空探测器自主任务规划方法研究

国家自然科学基金

3+阅读 · 2017年12月31日

一些流体力学方程的长时间动力学行为

国家自然科学基金

0+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

面向智能机器人柔性装配系统自主控制的主动视觉感知技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

47+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

多智能体系统有限时间一致性的自适应控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向电子制造的多机器人高速协调的关键理论与方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员