近年来,能够自主生成科学假设、开展实验并起草论文的手系统已成为加速科学发现的一种极具前景的范式。然而,现有的“人工智能科学家(AI Scientists)”在很大程度上仍属于领域无关型(domain-agnostic),这限制了它们在临床医学中的应用,因为医学研究要求以临床证据为基础,并涉及专门的数据模态。 在本研究中,我们推出了 Medical AI Scientist,这是首个专为临床自主研究定制的自主研究框架。该框架通过一种临床医生-工程师协同推理机制(clinician-engineer co-reasoning mechanism),将调研的文献转化为可操作的证据,从而产生具备临床依据的研究构思,并提升了生成构思的可追溯性。此外,Medical AI Scientist 还引入了受结构化医学写作范式和伦理政策指导的、基于证据的论文起草流程。 该框架在三种研究模式下运行,即:基于论文的复现(paper-based reproduction)受文献启发的创新(literature-inspired innovation)以及任务驱动型探索(task-driven exploration),分别对应医学科学自主性的不同等级。通过大型语言模型(LLMs)和人类专家的综合评估表明,在涵盖 19 个临床任务和 6 种数据模态的 171 个案例中,Medical AI Scientist 生成的构思质量显著高于商业化 LLMs。同时,我们的系统在所提方法与其具体实现之间实现了极强的对齐(alignment),并在实验可执行率方面表现出显著更高的成功率。人类专家和斯坦福智能体评审器(Stanford Agentic Reviewer)的双盲评估结果显示,生成的论文质量接近 MICCAI 水准,并持续超越 ISBI 和 BIBM 的论文质量。本研究提出的 Medical AI Scientist 凸显了利用人工智能在医疗保健领域实现自主科学发现的巨大潜力。

1. 引言 (Introduction)

近年来,医疗人工智能领域见证了飞速发展。能力日益增强的模型在疾病诊断 [1–4]、医学影像分析 [5–7] 以及临床预后预测 [8–10] 等方面均达到了最先进的性能(SOTA)。与此同时,大型语言模型 [11–16] 在语言理解、推理和代码生成方面取得了实质性进展,催生了超越单一任务执行能力的工具增强型(tool-augmented)及多智能体系统 [17–25]。这些进展共同催化了自主研究框架的兴起,通常被称为“人工智能科学家(AI Scientists)”[26–29]。这类系统旨在实现从假设生成、实验设计到结果解读及论文准备的全流程自动化,有望加速科学创新 [30]。在数学、化学和通用机器学习等问题定义、数据表示和评估协议相对标准化的领域,AI Scientist 系统已展现出加速研究的潜力。 鉴于医学 AI 直接影响患者预后、诊断可靠性及医疗效率,该领域成为此类系统最重要的应用场景之一。随着医学数据集、分析方法和科学文献以空前速度增长,由人类驱动的研究吞吐量已日益成为关键瓶颈 [31–34]。这一不断扩大的差距凸显了对自主科学系统的迫切需求,且这些系统必须针对临床医学固有的认知、操作和伦理约束进行专门设计。 然而,将这些自主研究范式扩展到医学领域仍面临挑战。 * 首先,现有的 AI Scientist 侧重于模型修改或通用优化策略,忽略了医学相关的先验知识(Priors),如基础诊断流程和特定疾病的病理模式。此外,其检索和推理过程往往缺乏足够的约束,无法可靠地识别权威的医学推理证据,导致模型虽然在表面性能指标上达标,却无法捕获具有临床意义的特征。 * 其次,医学数据具有异构性和高维特性(包括三维和各向异性结构),加之专门的评估标准,给实验执行的可靠性和公正性带来了挑战。 * 第三,医学数据的来源溯源和伦理声明的清晰度对于研究发现的可信度、可复现性及临床转化至关重要,但目前的自主研究系统在很大程度上忽视了这些要求,且未能生成符合临床写作框架和伦理标准的论文。

在此,我们提出了 Medical AI Scientist,这是一个用于端到端医学 AI 发现与开发的智能体框架(agentic framework),如图 1a 所示。该系统由三个核心组件组成:构思提议器(Idea Proposer)实验执行器(Experimental Executor)论文撰写器(Manuscript Composer),共同支持全自主的研究生命周期。 * 构思提议器利用结构化文献检索与分析来识别临床先验,随后将最合适的先进技术模型适配于医学任务。构思生成过程中融入了临床医生-工程师协同推理机制,旨在将每个假设明确建立在可验证的证据之上,并缓解幻觉(hallucinations)问题。 * 自动化实验执行器通过将通用执行工具链与针对异构复杂临床数据格式定制的特定领域医学工具箱相结合,编排了一套可靠的验证管线,从而实现迭代式、具备自纠错能力的深度模型开发。 * 层次化论文撰写器通过一种具有增强叙事逻辑和可读性的结构化医学写作范式,将研究产出转化为连贯且基于证据的初稿。它还嵌入了伦理审查机制,严格按照医学出版政策记录数据使用情况。

为了解决自动化医学研究系统缺乏标准化评估协议的问题,我们引入了 Med-AI Bench(图 1b)。该基准测试包含 171 个高质量评估案例,围绕涵盖 6 种常见医学数据模态的 19 项不同研究任务展开。对于每项任务,我们选择了 3 篇难度各异(易、中、难)的代表性论文,并构建了 3 种不同输入模式的评估案例。该设计为全流程自动化医学研究系统的定性和定量评估提供了一个系统且统一的框架。 如图 1c 所示,我们首先利用大语言模型和人类专家对研究构思的生成进行了评估(图 2)。结果显示,Medical AI Scientist 在创新性、成熟度、伦理合规性、泛化性、实用性可解释性六个维度上均持续超越商业语言模型。随后,我们评估了实验执行情况,系统在所提方法与其具体实现之间表现出极强的对齐性(alignment),且生成可执行实验的成功率显著更高(图 4)。最后,在双盲评估下(图 1d, 5b & c),10 位独立领域专家将生成的论文与来自 MICCAI、ISBI 和 BIBM 等顶级会议的高质量人类撰写研究进行了对比评审;同时,所有投稿均由 Stanford Agentic Reviewer 按照 ICLR 对齐的标准进行了进一步评审(图 5a)。 生成的论文平均得分为 $4.60 \pm 0.56$,在创新性、可复现性、连贯性和清晰度等关键维度上保持了竞争力,仅在覆盖范围上存在细微差距。定性反馈进一步表明,系统产出具有极强的实际应用相关性,表达清晰且无重大缺陷。此外,我们系统生成的一篇论文在经过同行评审后,已被**国际人工智能科学家大会(ICAIS 2025 [35])**接收。这些结果共同表明,自动化系统可以加速复杂的方法学设计,凸显了其显著提升医学 AI 研究效率的潜力。

成为VIP会员查看完整内容
11

相关内容

医学领域的人工智能是使用机器学习模型搜索医疗数据,发现洞察,从而帮助改善健康状况和患者体验。 得益于近年来计算机科学和信息技术的发展,人工智能 (AI) 正迅速成为现代医学中不可或缺的一部分。 由人工智能支持的人工智能算法和其他应用程序正在为临床和研究领域的医学专业人员提供支持。
从面向科学的人工智能到智能体科学:自主科学发现综述
“人工智能科学家距离改变世界还有多远?”
专知会员服务
23+阅读 · 2025年8月1日
《医学中的生成式人工智能》
专知会员服务
46+阅读 · 2024年12月16日
【CELL】用AI智能体推动生物医学发现
专知会员服务
21+阅读 · 2024年11月1日
大模型如何赋能医学?全科医学人工智能基础模型
专知会员服务
89+阅读 · 2023年4月13日
医疗人工智能发展现状及展望
专知会员服务
83+阅读 · 2022年4月11日
【AI与医学】多模态机器学习精准医疗健康
专家报告 | 类脑智能与类脑计算
中国图象图形学报
19+阅读 · 2019年10月9日
【综述】医疗可解释人工智能综述论文
专知
33+阅读 · 2019年7月18日
人工智能Paper精读班,视频讲解+代码实现
AINLP
17+阅读 · 2019年5月31日
综述AI未来:神经科学启发的类脑计算
人工智能学家
11+阅读 · 2018年4月24日
医学知识图谱构建技术与研究进展
全球人工智能
19+阅读 · 2017年11月13日
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月13日
Arxiv
0+阅读 · 2月18日
VIP会员
最新内容
超越技术:伊朗冲突中的“战争方式”
专知会员服务
11+阅读 · 4月1日
军事决策大语言模型综合评价基准
专知会员服务
8+阅读 · 4月1日
《美军混合航空器军用适航认证路线图》84页
专知会员服务
7+阅读 · 4月1日
量子无人机与未来军事战争
专知会员服务
12+阅读 · 4月1日
迈向医学人工智能科学家
专知会员服务
11+阅读 · 4月1日
无人机尚未在乌克兰赢得战斗:西方考量
专知会员服务
12+阅读 · 3月31日
《军事网络数据包拦截技术研究》
专知会员服务
11+阅读 · 3月31日
《作战决策自动化支持系统文献综述》
专知会员服务
15+阅读 · 3月31日
相关VIP内容
相关资讯
【AI与医学】多模态机器学习精准医疗健康
专家报告 | 类脑智能与类脑计算
中国图象图形学报
19+阅读 · 2019年10月9日
【综述】医疗可解释人工智能综述论文
专知
33+阅读 · 2019年7月18日
人工智能Paper精读班,视频讲解+代码实现
AINLP
17+阅读 · 2019年5月31日
综述AI未来:神经科学启发的类脑计算
人工智能学家
11+阅读 · 2018年4月24日
医学知识图谱构建技术与研究进展
全球人工智能
19+阅读 · 2017年11月13日
相关基金
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员