——将非结构化的研究资料合成(Synthesizing)为学术手稿,是人工智能驱动的科学发现(AI-driven scientific discovery)中一项至关重要却尚未得到充分探索的挑战。现有的自动化写作系统往往与特定的实验流水线强耦合,且生成的文献综述流于表面。为此,我们提出了 PaperOrchestra:一种用于自动化 AI 学术论文撰写的多智能体框架。该框架能够灵活地将不受限的撰写前材料(pre-writing materials)转化为达到投稿标准的 $\LaTeX$ 手稿,并包括全面的文献综合(literature synthesis)及生成的视觉内容(如实验图表和概念图)。为了评估系统性能,我们推出了 PaperWritingBench。这是首个标准化基准测试集,包含从 200 篇顶级 AI 会议论文中逆向提取的原始资料,并配套了一系列全自动评估工具。在双盲人工评估中,PaperOrchestra 的表现显著优于其他自动化基线模型,在文献综述质量上的绝对胜率领先 50%–68%,在手稿整体质量上领先 14%–38%。(项目主页:https://yiwen-song.github.io/paper_orchestra/)

1 引言

大语言模型(LLMs)的飞速发展正推动人工智能从辅助工具向科学发现的积极参与者转型 (Eger et al., 2025)。尽管近期出现的端到端自主框架 (Lu et al., 2024; Yamada et al., 2025) 证实了自动化研究闭环的可行性,但要实现其全部潜力,仍受阻于一个关键步骤:如何将非结构化材料(如原始创意和实验日志)转化为严谨且达到投稿标准的学术手稿。

早期自动化学术写作的尝试主要依赖于 LLM 的参数记忆,这往往导致事实性幻觉。为了缓解这一问题,近期的框架开始采用检索增强生成(RAG)方法。诸如 AutoSurvey2 (Wu et al., 2025) 和 LiRA (Go et al., 2025) 等系统,通过将文献综述过程分解为结构化阶段或模拟人类评审流程的专业智能体角色来实现。然而,这些专门针对综述开发的框架缺乏将原始实验数据转化为完整研究论文的能力。 另一方面,全生命周期自主研究智能体(full-lifecycle autonomous research agents)与其实验闭环紧密耦合,导致其无法作为独立的写作工具来处理人类提供的材料。实证评估显示,这些智能体在文献综合方面存在严重缺陷 (Beel et al., 2025; Tang et al., 2025b)。由于依赖简单的关键词搜索,这些智能体生成的综述往往流于表面且引用不足。此外,它们缺乏生成概念图的能力,使得视觉呈现仅限于代码生成的实验数据图表。再者,由于缺乏标准化的基准测试,独立评估自动化写作质量仍然困难重重。 为了填补这些空白,我们的核心贡献如下: * PaperOrchestra:一个独立的、多智能体协同框架,能够利用不受限的撰写前材料自主创作 $\LaTeX$ 手稿。该框架通过专业智能体进行深度的文献综合,生成实验图表与概念图,并迭代优化手稿以提升技术清晰度。 * PaperWritingBench:首个针对 AI 学术论文撰写的标准化基准测试集。该基准通过提供从 200 篇顶级 AI 会议论文中逆向提取的原始资料(包括创意和实验日志),实现了对写作任务的独立评测。 * 性能表现:在对照人工评估中,PaperOrchestra 的表现显著优于自主基线模型。在文献综述综合方面,其绝对胜率领先(即我方胜率与基线胜率之差)达 50%–68%;在手稿整体质量上,绝对胜率领先 14%–38%。

成为VIP会员查看完整内容
0

相关内容

大语言模型是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本,还能够深入理解文本含义,处理各种自然语言任务,如文本摘要、问答、翻译等。2023年,大语言模型及其在人工智能领域的应用已成为全球科技研究的热点,其在规模上的增长尤为引人注目,参数量已从最初的十几亿跃升到如今的一万亿。参数量的提升使得模型能够更加精细地捕捉人类语言微妙之处,更加深入地理解人类语言的复杂性。在过去的一年里,大语言模型在吸纳新知识、分解复杂任务以及图文对齐等多方面都有显著提升。随着技术的不断成熟,它将不断拓展其应用范围,为人类提供更加智能化和个性化的服务,进一步改善人们的生活和生产方式。
【斯坦福博士论文】协作式人工智能智能体
专知会员服务
26+阅读 · 3月23日
【MIT博士论文】人工智能系统的组合泛化,194页pdf
专知会员服务
61+阅读 · 2023年11月15日
重磅!AI框架发展白皮书(2022年),44页pdf
专知
28+阅读 · 2022年2月27日
人工智能Paper精读班,视频讲解+代码实现
AINLP
17+阅读 · 2019年5月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
大模型错因诊断分析
专知会员服务
0+阅读 · 今天14:58
视频生成基础模型进展
专知会员服务
0+阅读 · 今天14:53
《军事对抗环境中移动自组网的时敏信道分配》
专知会员服务
2+阅读 · 今天14:24
《关键任务型人工智能的可靠性》
专知会员服务
2+阅读 · 今天14:16
《对流层散射系统在军事通信网络中的应用前景》
人工智能军事技术在中东地区的扩散
专知会员服务
3+阅读 · 今天5:45
《军用5G基本战术网络研究与仿真》
专知会员服务
8+阅读 · 今天5:37
相关VIP内容
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员