利用量规奖励训练 AI 共同科学家

AI co-scientist 正作为一种辅助人类研究者实现科研目标的工具脱颖而出。此类系统的核心功能在于：给定一组研究目标与约束条件，能够自动生成研究方案。这些方案既可用于研究者的头脑风暴，亦可在进一步完善后付诸实施。然而，由于该任务具有高度的开放性，目前的语言模型在生成符合所有约束及隐含要求的研究方案时仍面临挑战。此外，通过执行实验来验证研究方案不仅过程缓慢，且成本昂贵。在本研究中，我们探讨了如何利用海量的既有研究论文语料库，训练语言模型生成更高质量的研究方案。我们通过从跨学科领域的论文中自动提取研究目标及针对特定目标的评分量表（grading rubrics），构建了一个可扩展且多样化的训练语料库。随后，我们通过带有自我评分机制的强化学习（reinforcement learning with self-grading）对模型进行研究方案生成的训练。具体而言，初始策略（policy）的冻结副本充当评分器，将评分量表作为特权信息（privileged information）来评估训练策略所生成的方案。这种设定创造了“生成器-验证器差异”（generator-verifier gap），从而实现在无需外部人工监督的情况下的模型性能提升。为了验证该方法的有效性，我们针对机器学习研究目标开展了一项耗时 225 小时的人类专家调研。结果显示，对于 $70%$ 的研究目标，专家更青睐由微调后的 Qwen3-30B-A3B 模型生成的方案而非初始模型；同时，专家对 $84%$ 自动提取的特定目标评分量表表示认可。为评估泛化性，我们将该方法扩展至医学论文的研究目标以及最新的 arXiv 预印本，并由一组前沿模型组成的“评审团”进行评估。实验表明，我们的微调方法实现了 $12%-22%$ 的相对提升，并展现出显著的跨领域泛化能力，即使在实验反馈难以获取的医学研究等场景中依然有效。综上所述，这些发现证明了这种可扩展的自动化训练方案在推动通用型 AI 共研科学家发展方面的巨大潜力。

1 引言（Introduction）

语言模型在全人类科学语料库的基础上进行训练，吸收了远超个体研究者阅读能力的知识。然而，它们辅助研究者的能力在很大程度上仍局限于定义明确的数学、代码或文献搜索查询。在这些任务中，模型输出易于验证，从而能为训练提供快速反馈；这与科学探索核心中抽象且开放式的问题截然不同。因此，在本研究中，我们探讨：如何训练模型，使其能针对多样的开放式研究目标生成更高质量的研究方案？

现有的“人工智能驱动的科学研究”（AI for Science）工作遵循一种共同的范式：为特定任务创建端到端的执行环境，并利用模型在无数次尝试中优化定义明确的目标 (Lu et al., 2024; Novikov et al., 2025; Nathani et al., 2025)。虽然这一范式促成了 AlphaFold (Jumper et al., 2021) 和 AlphaEvolve (Novikov et al., 2025) 等突破，但其通用性受限：大多数科学领域无法被封装进预定义的沙盒中。例如在医学领域，创建高保真的数字模拟器是不可行的 (Zhang et al., 2024)。在缺乏人类指导的情况下进行现实世界的试错学习，不仅可能浪费大量资源，还会引发伦理担忧 (Djurisic et al., 2017; Weston and Foerster, 2025)，尤其是当训练初期的方案存在缺陷时。事实上，对于前沿研究方向，主要的智力挑战往往在于设计严谨的研究方案——包括实验设置和评估指标。我们并未采用基于端到端执行反馈的训练方式，而是从“科学学徒制”中汲取灵感：导师设定宽泛的研究目标，并在实验实施前对研究方案进行评议。我们将语言模型训练为“共研科学家”（AI co-scientist）(Gottweis et al., 2025)——即给定一个研究目标，模型提议一份高质量的研究方案。这将关注点从建立昂贵、专门的试错环境，转向为多样的研究目标生成合理方案，人类研究者随后可在实施前对其进行完善。至关重要的一点是，关于科学新颖性和价值的主观判断 (Gupta and Pruthi, 2025) 仍保留在人类研究者手中，由他们负责阐明研究目标中的目的与约束。为了大规模训练模型生成更好的研究方案，我们利用语言模型从科学论文中提取训练数据。对于每篇论文，我们提取两个组件：(i) 开放式研究目标，旨在瞄准核心洞察，并包含论文中陈述的具体约束和偏好；(ii) 特定目标的评分量表（goal-specific rubrics），基于科学论文的全文背景，由有效方案必须满足的基本要求和特征组成。随后，我们通过带有自我评分机制的强化学习（RL）优化语言模型（即方案生成器）：初始模型的副本充当评分器，并利用提取的评分量表作为特权信息 (Zhou et al., 2025) 对生成的方案进行评分，从而创造出生成器-验证器差异 (Swamy et al., 2025)。对于每个评分项，我们还要求评分器列出方案相关部分未能满足的七项通用准则（如果有），并利用这种结构化评分进行落地（grounded）评分与分析。通过这些奖励进行训练后，模型学会了满足详尽的、针对特定目标的要求，而无需昂贵的人工标注。消融实验证实，特定目标的评分量表和通用准则对于性能提升均至关重要。为了验证我们的方法，我们与机器学习（ML）专家进行了一项人类评估，针对从近期 NeurIPS 和 ICLR 论文中提取的目标，收集了详细的标注，以对比初始 Qwen-3-30B-A3B-Instruct (Yang et al., 2025) 与微调模型生成的研究方案。专家在 $70%$ 的目标上更青睐我们微调模型生成的方案 ($p < 0.01$)，认为它们更严谨、更有可能带来更好的研究结果，且总体上对研究生更具参考价值。我们通过 PubMed 上的医学论文和最新的 arXiv 预印本（2025 年 8-9 月）证明了跨领域的通用性；在使用前沿模型评审团（frontier model juries）进行的评分量表评估中，微调模型较初始模型生成的方案实现了 $12%-22%$ 的相对提升。所得性能使我们的 30B 模型足以与 Grok-4-Thinking (xAI, 2025) 竞争，尽管仍落后于表现最强的模型 GPT-5-Thinking (OpenAI, 2025)。我们将主要贡献总结如下： * 我们提出了一种可扩展的方法，用于从科学论文中提取研究目标以及评估相应方案的评分量表。为推动 AI 共研科学家的研究，我们发布了 ResearchPlanGen 数据集，该数据集涵盖了 ML 论文、医学论文及近期 arXiv 预印本。 * 通过精心设计的人类专家研究，我们证明了通过评分量表引导的自我评分训练能显著提升研究方案的质量，且无需构建专门的执行环境。 * 我们展示了该方法能利用前沿模型评审团的自动化评分评估，提升不同科学领域模型生成的方案质量。值得注意的是，我们观察到了显著的跨领域泛化能力，这为训练通用型 AI 共研科学家的可行性提供了证据。

成为VIP会员查看完整内容