尽管由大语言模型驱动的自主 AI 科学家已取得飞速进展,但在研究流程中,生成达到发表水准(publication-ready)的学术插图仍是一个耗时费力的瓶颈。为解决这一难题,我们推出了 PaperBanana——一个用于自动生成高水准学术插图的智能体框架。该框架以最先进的视觉语言模型(VLMs)和图像生成模型为核心,通过协同多个专用智能体来执行参考文献检索、内容与风格规划、图像渲染以及基于自我批判(self-critique)的迭代优化。
为了对该框架进行严谨评估,我们构建了 PaperBananaBench 评测基准。该基准包含 292 个从 NeurIPS 2025 发表论文中精选的方法论图表测试用例,涵盖了多元的研究领域与绘图风格。综合实验表明,PaperBanana 在忠实度、简洁性、可读性和美学表现上一致优于现有的主流基线模型。此外,我们进一步证明该方法能够有效扩展至高质量统计图表的生成。总而言之,PaperBanana 为学术绘图的自动化生成奠定了重要基础。
https://dwzhu-pku.github.io/PaperBanana/
自主科学发现是通用人工智能(AGI)长期追求的目标 (Ghahramani, 2015; Langley, 1987, 2024; Schmidhuber, 2010)。随着大语言模型(LLMs)的飞速演进 (Anthropic, 2025; Comanici et al., 2025; Liu et al., 2024; OpenAI, 2025b; Yang et al., 2025a),自主 AI 科学家已展现出自动化研究生命周期中诸多环节的潜力,例如文献综述、构思生成及实验迭代 (Gottweis et al., 2025; Lu et al., 2024; Luo et al., 2025)。然而,科学发现只有通过有效的传播才能实现其完整价值。尽管目前的自主 AI 科学家精通文本分析和代码执行,但在可视化呈现研究成果方面仍面临挑战,尤其是在生成符合学术论文严苛标准的插图(流程图与统计图)方面。
在这些绘图任务中,生成方法论流程图(methodology diagrams)构成了重大挑战,其同时要求内容保真度(content fidelity)与视觉美学。早期的绘图尝试主要采用基于代码的范式,利用 TikZ (Belouadi and Eger, 2024; Belouadi et al., 2025)、Python-PPTX (Zheng et al., 2025) 或 SVG 以编程方式合成图表。虽然这些方法对结构化内容有效,但在试图生成现代 AI 论文中日益复杂的视觉元素(如专业图标和自定义形状)时,往往会遇到表达能力受限的问题。相反,尽管近期的图像生成模型 (Deepmind, 2025; OpenAI, 2025a; Team et al., 2025; Wu et al., 2025a) 展示了卓越的指令遵循能力和高质量的视觉输出,但稳定生成符合学术规范的插图依然是一项艰巨任务 (Zuo et al., 2025)。专业绘图工具所需的专业知识往往限制了研究人员自由表达复杂思想的能力,迫使他们投入大量手工劳动来打磨图表。这在科学发现的有效视觉传播中形成了一个显著瓶颈。 在本文中,我们推出了 PaperBanana,这是一个旨在通过自动化生产高质量学术插图来填补这一空白的智能体(agentic)框架。给定方法论描述和图表标题(caption)作为输入,PaperBanana 协同由尖端 VLM 和图像生成模型(如 Gemini-3-Pro 和 Nano-Banana-Pro)驱动的专用智能体,执行参考样例检索、详尽的内容与风格规划、图像渲染,并通过自我批判进行迭代优化。这种参考驱动的协作工作流使系统能够有效掌握发表级插图所需的逻辑构成与风格规范。除方法论图表外,我们的框架还通过扩展至统计图表展示了极强的通用性,为科学可视化提供了全面的解决方案。 为了严谨地评估我们的框架,并解决自动化学术绘图领域缺乏专门基准的问题,我们推出了 PaperBananaBench。这是一个针对方法论流程图生成的综合基准,包含从 NeurIPS 2025 发表论文中精选的 292 个测试用例和 292 个参考用例,涵盖了多元的研究课题与绘图风格。为了评估生成质量,我们采用了“VLM 担任评委”(VLM-as-a-Judge)的方法,在忠实度、简洁性、可读性和美学四个维度上参照人工绘图进行评分,并通过与人类判断的相关性验证了该方法的可靠性。 在我们的基准上进行的全面实验证明了 PaperBanana 的有效性。我们的方法在所有四个评估维度上均持续优于主流基线模型——忠实度($+2.8%$)、简洁性($+37.2%$)、可读性($+12.9%$)和美学($+6.6%$),且绘图生成的综合总分提升了 $17.0%$。我们进一步展示了该方法可以无缝扩展至统计图表。总的来说,我们的方法为学术插图的自动化生成铺平了道路(示例见图 1)。作为能力展示,本手稿中标记有 的图表完全由 PaperBanana 生成。此外,我们还讨论了一些有趣的设置,包括利用我们的框架增强现有的人工绘图,以及探索使用图像生成模型生成统计图表。综上所述,我们的贡献如下: * 我们提出了 PaperBanana,这是一个全自动的智能体框架,通过协同专用智能体来生成达到发表水准的学术插图。 * 我们构建了 PaperBananaBench,用于评估学术插图(特别是方法论流程图)的生成质量。 * 全面的实验表明,我们的工作流显著优于领先的基线模型,展现了自动化生成学术插图的前景。