OmniScientist: 迈向人类与 AI 科学家协同演化的生态系统

随着大语言模型（LLMs）的迅猛发展，AI 智能体在科学任务中展现出日益增长的能力，涵盖了从假设生成、实验设计到论文撰写的全过程。此类智能体系统通常被称为“AI 科学家”。然而，现有的 AI 科学家系统主要将科学发现建模为孤立的搜索或优化问题，忽视了科学研究本质上是一种社会化协作行为。现实世界中的科学研究依赖于一套由协作机制、贡献归属、同行评审以及结构化科学知识网络构成的复杂基础设施。由于缺乏对这些关键维度的建模，现有系统难以建立真正的研究生态，亦无法与人类科学社区进行深层次交互。为了填补这一空白，我们提出了 OmniScientist 框架，该框架明确地将人类研究的底层机制编码进 AI 科学工作流中。OmniScientist 不仅在数据基础、文献综述、研究构思、实验自动化、科学写作及同行评审等方面实现了端到端自动化，还通过模拟人类科学体系提供了全面的基础设施支持，具体包括：(1) 基于引用网络和概念关联构建的结构化知识系统；(2) 旨在实现多智能体无缝协作及人类研究者参与的协作研究协议（OSP）；(3) 基于盲样成对用户投票和 Elo 评分排名的开放评价平台（ScienceArena）。这一基础设施使智能体不仅能够理解和利用人类知识体系，还能进行协作与协同演化，从而培育出一个可持续且可扩展的创新生态系统。通过 OmniScientist，我们的目标是推动 AI 智能体从单纯的任务执行者向真正的科学家转变，使其具备理解科学规范、参与科研协作并驱动科学生态演化的能力。

1 引言

科学实践始终随着工具的演进而变革，从望远镜、显微镜到计算机与算法。如今，大语言模型（LLMs）代表了下一次重大转型。在各个学科中，由 LLM 驱动的智能体已开始协助曾经仅由人类研究者承担的任务：检索海量文献、提出科学假设、撰写报告，甚至设计实验。随着这些能力的不断加深，一个根本性的问题随之而来：AI 能否从单纯的工具演变为科学生态系统中真正的参与者？构建此类“AI 科学家”[1, 2] 的现有努力已取得显著进展。例如，AlphaEvolve [3] 通过显式数学建模和基于代码的搜索空间探索进行迭代优化；OpenAI Deep Research [4] 则在特定研究课题的引导下，进行广泛的信息检索与综合。Virtual Lab [5] 和 Future House [6] 等系统则向自动化迈出了更远的一步，整合了更全面的 AI 驱动研究工作流，并协调多个工具以完成复杂的科学任务。然而，尽管这些方法表现出高度的复杂性，它们仍主要将科学发现建模为孤立的搜索或优化问题，忽视了一个基本事实：科学研究本质上是一种社会化协作行为，并由复杂的制度性基础设施提供支撑。由于缺乏这些关键维度，现有系统仅能作为孤立的工具运行，难以建立真正的研究生态，亦无法与人类科学社区进行深层次交互。将人类研究的基础设施整合进来，对于提升 AI 科学智能至关重要。数个世纪的科学进步不仅产生了静态的事实，还沉淀出一套复杂的认知与结构框架。例如，引用网络将孤立的研究发现转化为可追溯的思想脉络，揭示了科学思想的演化路径；同行评审机制作为严格的质量控制手段确保了研究的可靠性；协作协议则规范了贡献与信用的分配。这些结构为科学演化提供了必要的“环境”。如果不对这些底层机制进行显式建模和编码，AI 科学家将始终只是高效的执行者，而无法继承人类科学研究中那种动态、自纠错的特质。在本文中，我们迈出了第一步，推出了 OmniScientist：一个将人类研究基础设施显式编码进 AI 驱动研究全生命周期的综合性框架。OmniScientist 超越了简单的任务自动化，它模拟了一个完整的科学生态环境。其核心是一个强大的数据基础层，构建于数百万篇全文文献及其元数据之上。这形成了一个捕捉引用关系和知识语境的动态科学网络，作为系统的认知基石。在此基础上，文献综述模块采用多智能体架构进行迭代式、语义引导的探索，确保智能体具备对研究版图的全面认知。在这一语境引导下，研究构思过程利用科学学（Science of Science）[7] 的原理，在引用网络中探索并精炼概念，生成既有背景支撑又具方法论严谨性的新颖假设。在实验自动化方面，系统采用迭代式多智能体循环来生成、评估并优化实验策略，通过严格的反馈机制实现自我优化。实验完成后，科学写作由一个集成框架支持，该框架能够综合相关工作、生成图表，并根据标准学术规范润色文本，产出逻辑连贯、达到发表水平的论文。最后，系统引入了论文评审机制作为质量控制关卡，通过与前人工作的深入对比来评估投稿，提供客观且具建设性的反馈。这些组件并非孤立运作，而是作为一个互联的生态系统，覆盖了科学研究的完整脉络。此外，为了将这些功能模块转化为一个具有凝聚力和治理能力的生态系统，我们引入了两项关键的基础设施创新。首先，我们提出了 Omni 科学协议（OSP），这是一种标准化的协作骨干网，旨在编排多个 AI 智能体与人类研究者之间的复杂交互。OSP 并不将人类视为被动的观察者，而是允许研究者无缝参与执行与协作过程，在系统需要高层次人类直觉时提供及时的反馈、战略建议或方向修正。为了维护科学诚信，OSP 进一步整合了细粒度的贡献追踪系统。该机制记录了每一个创意、数据集和实验结果的溯源（Provenance），将信用归于特定的智能体或人类参与者，从而建立起一套类似于现代科学贡献者角色的透明署名与问责模型。其次，针对开放式科学发现评估这一持久挑战，我们开发了 ScienceArena，这是一个旨在模拟社区驱动科学验证特性的开放基准平台。与静态指标不同，ScienceArena 采用盲样成对投票机制，由人类专家根据科学严谨性和新颖性对匿名研究产出进行评估。通过将这些偏好聚合为动态的 Elo 评分，该平台建立了一个反映社区标准演变的实时排行榜，从而有效地允许人类判断积极地塑造 AI 科学智能体的演化方向。总而言之，这项工作标志着一种范式转移：从设计孤立的研究工具转向构建全面的科学生态系统。通过将人类研究的基础设施显式编码进 AI 工作流，OmniScientist 赋能 LLM 智能体从单纯的任务执行者进化为该社区中的自主参与者。展望未来，我们预见这样一个愿景：AI 科学家将在生态系统内通过持续演化自主提升能力，同时与人类研究者协作，共同拓展知识的边界。