Scientific publication compresses a branching, iterative research process into a linear narrative, discarding the majority of what was discovered along the way. This compilation imposes two structural costs: a Storytelling Tax, where failed experiments, rejected hypotheses, and the branching exploration process are discarded to fit a linear narrative; and an Engineering Tax, where the gap between reviewer-sufficient prose and agent-sufficient specification leaves critical implementation details unwritten. Tolerable for human readers, these costs become critical when AI agents must understand, reproduce, and extend published work. We introduce the Agent-Native Research Artifact (ARA), a protocol that replaces the narrative paper with a machine-executable research package structured around four layers: scientific logic, executable code with full specifications, an exploration graph that preserves the failures compilation discards, and evidence grounding every claim in raw outputs. Three mechanisms support the ecosystem: a Live Research Manager that captures decisions and dead ends during ordinary development; an ARA Compiler that translates legacy PDFs and repos into ARAs; and an ARA-native review system that automates objective checks so human reviewers can focus on significance, novelty, and taste. On PaperBench and RE-Bench, ARA raises question-answering accuracy from 72.4% to 93.7% and reproduction success from 57.4% to 64.4%. On RE-Bench's five open-ended extension tasks, preserved failure traces in ARA accelerate progress, but can also constrain a capable agent from stepping outside the prior-run box depending on the agent's capabilities. Our code is open-sourced at https://github.com/Orchestra-Research/Agent-Native-Research-Artifact.


翻译:科学出版物将分支迭代的研究过程压缩为线性叙事,丢弃了沿途发现的大部分内容。这种压缩机制带来了两种结构性代价:一是“叙事税”——失败的实验、被否定的假设和分支探索过程被迫舍弃以符合线性结构;二是“工程税”——评审者可见的通用描述与智能体所需的精确规范之间存在鸿沟,导致关键实现细节未被记录。这些代价对人类读者尚可容忍,但当AI智能体必须理解、复现和扩展已发表成果时便成为关键障碍。我们提出智能体原生研究文档(ARA),这是一种将叙事型论文替换为机器可执行研究包的新协议,其结构围绕四个层级:科学逻辑、完备规范的可执行代码、保留失败压缩过程的探索图谱,以及将每项主张锚定于原始输出的证据体系。支撑该生态系统的三项机制包括:在常规开发过程中捕获决策与死胡同的实时研究管理器、将遗留PDF与代码仓库转换为ARA格式的编译器,以及可自动化客观审查的ARA原生评审系统,使人类评审者能聚焦于重要程度、创新性与学术品味。在PaperBench和RE-Bench基准测试中,ARA将问答准确率从72.4%提升至93.7%,复现成功率从57.4%提升至64.4%。在RE-Bench的五项开放式扩展任务中,ARA保留的失败轨迹虽能加速进展,但也可能根据智能体的能力差异,限制高水平智能体突破既往实验框架的探索能力。我们的代码已开源在https://github.com/Orchestra-Research/Agent-Native-Research-Artifact。

0
下载
关闭预览

相关内容

《人工智能:生成式AI的环境与人文影响》最新47页报告
专知会员服务
18+阅读 · 2025年7月15日
推荐!《人与AI协作中的可解释人工智能》320页论文
专知会员服务
138+阅读 · 2023年7月31日
【剑桥大学博士论文】自主智能体解释,175页pdf
专知会员服务
67+阅读 · 2023年3月3日
AI可解释性文献列表
专知
43+阅读 · 2019年10月7日
类脑计算的前沿论文,看我们推荐的这7篇
人工智能前沿讲习班
21+阅读 · 2019年1月7日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
2+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员