人工智能在科学发现领域的应用日益深入,从蛋白质结构预测到新材料设计,AI正在深刻改变科学研究的进程。然而,一个更根本的问题随之浮现:AI系统能否像人类科学家一样,在时间约束下预测科学进步的轨迹?它能够判断一个科学突破是否会发生、何时发生、以及如何实现吗?带着这些疑问,来自牛津大学、斯坦福大学、华盛顿大学、艾伦人工智能研究所等机构的联合团队(Sean Wu、Pan Lu、Yupeng Chen、Jonathan Bragg、Yutaro Yamada、Peter Clark、David Clifton、Philip Torr、James Zou、Junchi Yu)提出了一项系统性的评估框架——CUSP(Cutoff-conditioned Unseen Scientific Progress)。
这篇论文的核心贡献在于,它首次在受控的时间知识约束下,对前沿AI模型进行了大规模、多学科的“科学预测”能力评估。与现有的科学推理或问题解决评测不同,CUSP直面一个痛点:当前我们并不清楚AI到底能在多大程度上“预见”尚未发生的科学进展。它既不是考察模型对已有知识的检索,也不是测试其解决已知问题,而是要检验其能否基于一个时间点前的所有信息,对未来发生的科学事件进行判断和预测。
CUSP基准包含了来自Nature、Science、Cell等顶级期刊及社区驱动资源的4760个可验证科学里程碑。通过巧妙的“时间胶囊”设计,CUSP能够区分模型在训练截止日前后的事件上的表现,从而剥离出预测能力与知识回忆的差异。评估覆盖了4个维度:可行性评估、机制推理、生成方案设计、时间预测。研究发现,即使是最前沿的模型,在判断科学进展是否实现以及何时实现方面,也表现出了系统性且领域依赖的局限性。这篇文章值得所有关心AI能力边界、科学发现机制以及AI评估方法论的研究者和从业者认真研读。
英文题目 Forecasting Scientific Progress with Artificial Intelligence 作者 Sean Wu, Pan Lu, Yupeng Chen, Jonathan Bragg, Yutaro Yamada, Peter Clark, David Clifton, Philip Torr, James Zou, Junchi Yu arXiv ID 2605.22681 类别 cs.AI Comments/接收信息 73 pages, 13 figures, 29 tables 原文链接 https://arxiv.org/abs/2605.22681
本文旨在回答一个核心问题:当前AI系统是否能够预见科学进步的轨迹?为了系统性地研究这一问题,作者引入了一个在受控知识约束下预测科学进步的时间性评估框架。他们提出了CUSP,这是一个多学科、事件级的基准,用于评估AI系统在四个维度上的科学预测能力:可行性评估(能否判断科学进展是否会发生)、机制推理(能否识别背后的技术路径)、生成方案设计(能否生成与实际发现吻合的方法)以及时间预测(能否预测进展发生的时间)。在4760个科学事件上,研究观察到了当前前沿模型存在系统性和领域依赖的局限性。
研究的关键发现包括:
综上所述,当前AI系统作为科学进步的预测工具仍然力不从心。知识访问并未转化为可靠的预测能力,模型更多地从事后信息中获益,而非前瞻性的预测。
科学进步常常被认为遵循某种结构化的模式,例如半导体领域的摩尔定律和深度学习中的标度律。这些来自经验的规律长期以来为研究路线图、资金优先事项和技术预测提供了依据。随着AI在生物、化学、物理以及AI自身领域科学发现中的深度融入,一个根本性的问题浮现出来:AI系统能否预测科学进步的轨迹? 以往的研究大量评估了AI作为通用科学助手的能力,例如在假设生成、实验设计、科学推理、问题解决以及影响力预测等方面。这些研究确实证明了AI的广泛适用性,但没有一项评估涉及AI系统在时间知识约束下对科学进步进行可靠预测的能力。评估这种能力本身就具有挑战性:预测必须立足于具体的、可验证的科学事件,同时还要防止模型接触到事件发生后产生的信息。
这一空白正是CUSP所针对的核心痛点。论文要解决的关键问题是:当前AI系统是否有能力预见科学进步的轨迹?它们在科学预测方面的真实能力和本质局限是什么?为此,作者构建了一个新型的评估框架,旨在分离知识的记忆与知识的前瞻性运用,从而刻画模型在“预测未来”而不是“回忆过去”时的真实水平。
CUSP的核心方法论具有两个显著特点:一是通过“时间胶囊”设计实现受控的知识约束;二是通过四种互补的任务类型全面评估预测能力的各个维度。
图1:CUSP基准构建流程。系统从顶级期刊与社区资源汇聚科学突破,经筛选、概念抽取和任务生成后形成二元判断、多选、自由回答与日期预测四类任务,并可随新发现持续更新。 CUSP基准基于一个时间分层的科学里程碑语料库构建,时间跨度从2024年1月到2026年3月。所有纳入的里程碑都是可验证的、确定性的科学进展。 数据来源严格来自于顶级期刊:自然科学方面,从Nature、Science、Cell中提取高影响力的同行评审出版物。为了确定事件的时间边界,避免时间泄露,论文查询了Crossref、Semantic Scholar、OpenAlex、Europe PMC、arXiv和bioRxiv/medRxiv等多个数据源,并采用每个稿件DOI对应的最早观察日期作为相关知识的边界日。对于人工智能领域,则纳入了来自社区驱动资源的高可见度论文,包括每周顶刊列表、Hugging Face Top Papers中心以及广泛使用的排行榜记录。 最终,CUSP基准共包含4760个科学事件,并从中合成了17429个经过验证的评估任务。基准的一个关键特性是持续更新:随着新发表的发现不断被纳入,基准持续保持动态和时效性。 与传统科学问答、事后推理或论文影响力预测不同,CUSP的关键不是让模型复述已有结论,而是把每个事件绑定到明确的时间边界,并要求模型在“当时可知道的信息”内做预测。因此,CUSP同时考察三件事:模型是否拥有足够科学背景知识,是否能把知识外推到未来事件,以及是否能对自身不确定性保持校准。 表1:CUSP与既有预测/科学评测基准的比较。CUSP同时具备科学 grounding、预测任务、时间约束、cutoff条件、多任务评估和持续扩展能力。
CUSP将科学预测操作化为四个互补的可测量维度,对应四种任务类型:
这是CUSP最精巧的部分。为了确保评估是在受控知识约束下进行,CUSP强制实施了时间胶囊机制:每个模型只能访问其训练截止日之前的知识。整个评估过程设计得非常严格,以确保模型不能事后访问信息。如果一个科学事件发生在某个模型的训练截止日之前(Pre-cutoff),模型理论上“知道”它;如果事件发生在截止日之后(Post-cutoff),模型必须“前瞻预测”它。通过对比模型在Pre-cutoff和Post-cutoff事件上的表现,可以专门测量预测能力,区分开“基于记忆的回忆”和“基于推理的前瞻”。
论文评估了多种前沿模型,包括:商用模型GPT-5.4、GPT-4o和Claude Sonnet 4.5,以及开源模型LLaMA-3.3-70B-Instruct、GPT-OSS-20B和DeepSeek R1。每个模型都有明确的训练截止日期。
表2:CUSP整体性能。模型在MCQ任务上显著高于随机基线,但Binary接近随机,Date和FRQ表现分化明显,说明“识别合理路径”不等同于“可靠预测科学进展”。 实验结果显示了一个一致的、令人深思的模式:模型在识别合理的技术路径(MCQ)上表现良好,但在判断科学进展是否以及何时发生(Binary和Date)上表现挣扎,在生成与实际方法对齐的解决方案(FRQ)上也存在局限。 一个值得强调的现象是:模型在MCQ上表现强,并不意味着它真正具备科学预测能力。MCQ可以被理解为“在多个候选方案中识别哪一个更像真实路线”,这更接近模式识别和领域知识匹配;Binary与Date则要求模型判断科学事件是否会被实现、何时实现,需要对不确定性、技术成熟度、实验瓶颈和社区采纳速度进行综合推断。CUSP显示,当前模型在后一类任务上仍明显不足。 下表总结了各模型在所有任务上的整体性能:
表3:日期预测细分结果。所有模型整体存在正向时间偏差,即倾向于把科学事件预测得比真实发表时间更晚;LLaMA 3.3在时间误差上相对最小。 在日期预测任务中,所有模型都表现出一个系统性正向偏差(预测日期晚于真实日期)。这意味着模型普遍“过度乐观”地认为论文发表得更晚,而不是更早。 具体来看:
这表明模型可以粗粒度地感知时间范围,但缺乏精细的时间分辨率。
图3:六个模型在CUSP主要领域上的MCQ表现雷达图。不同领域可预测性差异明显,模型在AI、医学、环境科学等领域的相对表现并不一致。 模型表现存在显著的领域差异。论文通过雷达图(图3)直观展示了这一点。总体趋势是:AI领域的时间预测更准确,而生物、化学、物理领域的预测更难。在所有模型和所有任务中,生物(Biology)与化学(Chemistry)领域的MCQ准确率常常低于AI和医学(Medicine)领域。环境科学(Environmental Science)和材料科学(Materials Science)在某些模型上表现更好或更差。
表4:训练截止日前后事件的性能对比。多数模型在pre-cutoff与post-cutoff事件上的差异有限,说明科学预测能力不足不能简单归因于训练数据是否见过目标发现。 这个实验直接检验了模型的预测能力是否仅仅来自记忆。结果令人惊讶:模型在Pre-cutoff和Post-cutoff事件上的性能差异不大。例如,Binary任务上二者几乎重合。这意味着模型不能仅通过训练数据中知识的暴露程度来解释它们的局限性——换句话说,即使对已经发生过的事件(理论上模型知道答案),模型的判断能力也没有明显提升。这表明模型在科学预测上存在更根本的能力短板,而不仅仅是知识缺失。
为了进一步厘清是知识不够还是推理能力不足,论文设计了信息访问实验:向模型提供额外的、丰富的截止日前知识(例如论文的标题、摘要,甚至引用信息)。 结果发现:
图4:二元预测中的系统响应偏差。不同模型对“Yes/No”的倾向并不稳定,部分模型在肯定或否定方向上表现出强偏置,导致可行性判断接近随机。 模型在可行性判断上表现出显著的响应偏差,无论科学声明是否合理,模型都倾向于回答“会发生”或“不会发生”。同时,模型表现出系统性的过度自信。即使在预测错误时,模型给出的置信度分数仍然很高,表明其不确定性估计非常不可靠。
主要贡献:本文引入了CUSP,它是一个多学科、事件级、时间性的基准,用于评估AI系统在受控知识约束下预测科学进步的能力。通过系统的实验,论文揭示了当前AI系统的一个根本性局限:它们在预测科学进步是否实现、何时实现以及如何实现方面存在系统性失败。这些局限不能简单归因于知识暴露不足,它们更多反映了模型在“前瞻推理”上的脆弱性。 局限性:论文指出,当前AI系统无法形成有根据的、校准过的科学预期。它们不擅长从已知知识中推断尚未发生的事情,而更擅长在结果知晓后从事后信息中获益。不确定性估计的不可靠性(过度自信和响应偏差)是另一个严重局限。此外,领域间性能的高度异质表明,不同科学领域的预测挑战差异巨大,单一模型或方法无法普遍适用。 启发:这项研究对于AI在科学中的应用具有重要指导意义。它表明,要让AI不仅作为一个“知识检索机”或“解题助手”,而是作为一个可靠的“科学预言家”,需要超越检索的能力。未来的AI系统必须学会在不确定性下进行推理,理解科学发现如何在时间维度上展开。CUSP作为一种评估工具,为后续的工作——包括设计更好的知识表示、更精妙的预测推理机制以及更可靠的不确定性校准——提供了坚实的评估基础。它也提醒我们,即使是当前最强大的模型,在真正前瞻性的科学预测方面,距离人类智识仍有相当距离。这一领域将是下一阶段AI能力突破的关键战场之一。
原文标题:Forecasting Scientific Progress with Artificial Intelligence 原文链接:https://arxiv.org/abs/2605.22681