随着大语言模型(LLMs)的迅猛发展,AI 智能体在科学任务中展现出日益增长的能力,涵盖了从假设生成、实验设计到论文撰写的全过程。此类智能体系统通常被称为“AI 科学家”。然而,现有的 AI 科学家系统主要将科学发现建模为孤立的搜索或优化问题,忽视了科学研究本质上是一种社会化协作行为。现实世界中的科学研究依赖于一套由协作机制、贡献归属、同行评审以及结构化科学知识网络构成的复杂基础设施。由于缺乏对这些关键维度的建模,现有系统难以建立真正的研究生态,亦无法与人类科学社区进行深层次交互。 为了填补这一空白,我们提出了 OmniScientist 框架,该框架明确地将人类研究的底层机制编码进 AI 科学工作流中。OmniScientist 不仅在数据基础、文献综述、研究构思、实验自动化、科学写作及同行评审等方面实现了端到端自动化,还通过模拟人类科学体系提供了全面的基础设施支持,具体包括:(1) 基于引用网络和概念关联构建的结构化知识系统;(2) 旨在实现多智能体无缝协作及人类研究者参与的协作研究协议(OSP);(3) 基于盲样成对用户投票和 Elo 评分排名的开放评价平台(ScienceArena)。这一基础设施使智能体不仅能够理解和利用人类知识体系,还能进行协作与协同演化,从而培育出一个可持续且可扩展的创新生态系统。通过 OmniScientist,我们的目标是推动 AI 智能体从单纯的任务执行者向真正的科学家转变,使其具备理解科学规范、参与科研协作并驱动科学生态演化的能力。

1 引言

科学实践始终随着工具的演进而变革,从望远镜、显微镜到计算机与算法。如今,大语言模型(LLMs)代表了下一次重大转型。在各个学科中,由 LLM 驱动的智能体已开始协助曾经仅由人类研究者承担的任务:检索海量文献、提出科学假设、撰写报告,甚至设计实验。随着这些能力的不断加深,一个根本性的问题随之而来:AI 能否从单纯的工具演变为科学生态系统中真正的参与者? 构建此类“AI 科学家”[1, 2] 的现有努力已取得显著进展。例如,AlphaEvolve [3] 通过显式数学建模和基于代码的搜索空间探索进行迭代优化;OpenAI Deep Research [4] 则在特定研究课题的引导下,进行广泛的信息检索与综合。Virtual Lab [5] 和 Future House [6] 等系统则向自动化迈出了更远的一步,整合了更全面的 AI 驱动研究工作流,并协调多个工具以完成复杂的科学任务。然而,尽管这些方法表现出高度的复杂性,它们仍主要将科学发现建模为孤立的搜索或优化问题,忽视了一个基本事实:科学研究本质上是一种社会化协作行为,并由复杂的制度性基础设施提供支撑。由于缺乏这些关键维度,现有系统仅能作为孤立的工具运行,难以建立真正的研究生态,亦无法与人类科学社区进行深层次交互。 将人类研究的基础设施整合进来,对于提升 AI 科学智能至关重要。数个世纪的科学进步不仅产生了静态的事实,还沉淀出一套复杂的认知与结构框架。例如,引用网络将孤立的研究发现转化为可追溯的思想脉络,揭示了科学思想的演化路径;同行评审机制作为严格的质量控制手段确保了研究的可靠性;协作协议则规范了贡献与信用的分配。这些结构为科学演化提供了必要的“环境”。如果不对这些底层机制进行显式建模和编码,AI 科学家将始终只是高效的执行者,而无法继承人类科学研究中那种动态、自纠错的特质。 在本文中,我们迈出了第一步,推出了 OmniScientist:一个将人类研究基础设施显式编码进 AI 驱动研究全生命周期的综合性框架。OmniScientist 超越了简单的任务自动化,它模拟了一个完整的科学生态环境。其核心是一个强大的数据基础层,构建于数百万篇全文文献及其元数据之上。这形成了一个捕捉引用关系和知识语境的动态科学网络,作为系统的认知基石。在此基础上,文献综述模块采用多智能体架构进行迭代式、语义引导的探索,确保智能体具备对研究版图的全面认知。在这一语境引导下,研究构思过程利用科学学(Science of Science)[7] 的原理,在引用网络中探索并精炼概念,生成既有背景支撑又具方法论严谨性的新颖假设。在实验自动化方面,系统采用迭代式多智能体循环来生成、评估并优化实验策略,通过严格的反馈机制实现自我优化。实验完成后,科学写作由一个集成框架支持,该框架能够综合相关工作、生成图表,并根据标准学术规范润色文本,产出逻辑连贯、达到发表水平的论文。最后,系统引入了论文评审机制作为质量控制关卡,通过与前人工作的深入对比来评估投稿,提供客观且具建设性的反馈。这些组件并非孤立运作,而是作为一个互联的生态系统,覆盖了科学研究的完整脉络。 此外,为了将这些功能模块转化为一个具有凝聚力和治理能力的生态系统,我们引入了两项关键的基础设施创新。首先,我们提出了 Omni 科学协议(OSP),这是一种标准化的协作骨干网,旨在编排多个 AI 智能体与人类研究者之间的复杂交互。OSP 并不将人类视为被动的观察者,而是允许研究者无缝参与执行与协作过程,在系统需要高层次人类直觉时提供及时的反馈、战略建议或方向修正。为了维护科学诚信,OSP 进一步整合了细粒度的贡献追踪系统。该机制记录了每一个创意、数据集和实验结果的溯源(Provenance),将信用归于特定的智能体或人类参与者,从而建立起一套类似于现代科学贡献者角色的透明署名与问责模型。 其次,针对开放式科学发现评估这一持久挑战,我们开发了 ScienceArena,这是一个旨在模拟社区驱动科学验证特性的开放基准平台。与静态指标不同,ScienceArena 采用盲样成对投票机制,由人类专家根据科学严谨性和新颖性对匿名研究产出进行评估。通过将这些偏好聚合为动态的 Elo 评分,该平台建立了一个反映社区标准演变的实时排行榜,从而有效地允许人类判断积极地塑造 AI 科学智能体的演化方向。 总而言之,这项工作标志着一种范式转移:从设计孤立的研究工具转向构建全面的科学生态系统。通过将人类研究的基础设施显式编码进 AI 工作流,OmniScientist 赋能 LLM 智能体从单纯的任务执行者进化为该社区中的自主参与者。展望未来,我们预见这样一个愿景:AI 科学家将在生态系统内通过持续演化自主提升能力,同时与人类研究者协作,共同拓展知识的边界。

成为VIP会员查看完整内容
18

相关内容

AI智能体编程:技术、挑战与机遇综述
专知会员服务
41+阅读 · 2025年8月18日
AgentOps综述:分类、挑战与未来方向
专知会员服务
38+阅读 · 2025年8月6日
“人工智能科学家距离改变世界还有多远?”
专知会员服务
23+阅读 · 2025年8月1日
AI4Research:科学研究中的人工智能综述
专知会员服务
33+阅读 · 2025年7月4日
面向应用的智能体 AI 系统价值对齐:综述与展望
专知会员服务
23+阅读 · 2025年6月12日
专家报告 | 类脑智能与类脑计算
中国图象图形学报
19+阅读 · 2019年10月9日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
AI综述专栏 | 跨领域推荐系统文献综述(上)
人工智能前沿讲习班
13+阅读 · 2018年5月16日
综述AI未来:神经科学启发的类脑计算
人工智能学家
11+阅读 · 2018年4月24日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关VIP内容
AI智能体编程:技术、挑战与机遇综述
专知会员服务
41+阅读 · 2025年8月18日
AgentOps综述:分类、挑战与未来方向
专知会员服务
38+阅读 · 2025年8月6日
“人工智能科学家距离改变世界还有多远?”
专知会员服务
23+阅读 · 2025年8月1日
AI4Research:科学研究中的人工智能综述
专知会员服务
33+阅读 · 2025年7月4日
面向应用的智能体 AI 系统价值对齐:综述与展望
专知会员服务
23+阅读 · 2025年6月12日
相关基金
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员