迈向医学人工智能科学家

近年来，能够自主生成科学假设、开展实验并起草论文的手系统已成为加速科学发现的一种极具前景的范式。然而，现有的“人工智能科学家（AI Scientists）”在很大程度上仍属于领域无关型（domain-agnostic），这限制了它们在临床医学中的应用，因为医学研究要求以临床证据为基础，并涉及专门的数据模态。在本研究中，我们推出了 Medical AI Scientist，这是首个专为临床自主研究定制的自主研究框架。该框架通过一种临床医生-工程师协同推理机制（clinician-engineer co-reasoning mechanism），将调研的文献转化为可操作的证据，从而产生具备临床依据的研究构思，并提升了生成构思的可追溯性。此外，Medical AI Scientist 还引入了受结构化医学写作范式和伦理政策指导的、基于证据的论文起草流程。该框架在三种研究模式下运行，即：基于论文的复现（paper-based reproduction）、受文献启发的创新（literature-inspired innovation）以及任务驱动型探索（task-driven exploration），分别对应医学科学自主性的不同等级。通过大型语言模型（LLMs）和人类专家的综合评估表明，在涵盖 19 个临床任务和 6 种数据模态的 171 个案例中，Medical AI Scientist 生成的构思质量显著高于商业化 LLMs。同时，我们的系统在所提方法与其具体实现之间实现了极强的对齐（alignment），并在实验可执行率方面表现出显著更高的成功率。人类专家和斯坦福智能体评审器（Stanford Agentic Reviewer）的双盲评估结果显示，生成的论文质量接近 MICCAI 水准，并持续超越 ISBI 和 BIBM 的论文质量。本研究提出的 Medical AI Scientist 凸显了利用人工智能在医疗保健领域实现自主科学发现的巨大潜力。

1. 引言 (Introduction)

近年来，医疗人工智能领域见证了飞速发展。能力日益增强的模型在疾病诊断 [1–4]、医学影像分析 [5–7] 以及临床预后预测 [8–10] 等方面均达到了最先进的性能（SOTA）。与此同时，大型语言模型 [11–16] 在语言理解、推理和代码生成方面取得了实质性进展，催生了超越单一任务执行能力的工具增强型（tool-augmented）及多智能体系统 [17–25]。这些进展共同催化了自主研究框架的兴起，通常被称为“人工智能科学家（AI Scientists）”[26–29]。这类系统旨在实现从假设生成、实验设计到结果解读及论文准备的全流程自动化，有望加速科学创新 [30]。在数学、化学和通用机器学习等问题定义、数据表示和评估协议相对标准化的领域，AI Scientist 系统已展现出加速研究的潜力。鉴于医学 AI 直接影响患者预后、诊断可靠性及医疗效率，该领域成为此类系统最重要的应用场景之一。随着医学数据集、分析方法和科学文献以空前速度增长，由人类驱动的研究吞吐量已日益成为关键瓶颈 [31–34]。这一不断扩大的差距凸显了对自主科学系统的迫切需求，且这些系统必须针对临床医学固有的认知、操作和伦理约束进行专门设计。然而，将这些自主研究范式扩展到医学领域仍面临挑战。 * 首先，现有的 AI Scientist 侧重于模型修改或通用优化策略，忽略了医学相关的先验知识（Priors），如基础诊断流程和特定疾病的病理模式。此外，其检索和推理过程往往缺乏足够的约束，无法可靠地识别权威的医学推理证据，导致模型虽然在表面性能指标上达标，却无法捕获具有临床意义的特征。 * 其次，医学数据具有异构性和高维特性（包括三维和各向异性结构），加之专门的评估标准，给实验执行的可靠性和公正性带来了挑战。 * 第三，医学数据的来源溯源和伦理声明的清晰度对于研究发现的可信度、可复现性及临床转化至关重要，但目前的自主研究系统在很大程度上忽视了这些要求，且未能生成符合临床写作框架和伦理标准的论文。

在此，我们提出了 Medical AI Scientist，这是一个用于端到端医学 AI 发现与开发的智能体框架（agentic framework），如图 1a 所示。该系统由三个核心组件组成：构思提议器（Idea Proposer）、实验执行器（Experimental Executor）和论文撰写器（Manuscript Composer），共同支持全自主的研究生命周期。 * 构思提议器利用结构化文献检索与分析来识别临床先验，随后将最合适的先进技术模型适配于医学任务。构思生成过程中融入了临床医生-工程师协同推理机制，旨在将每个假设明确建立在可验证的证据之上，并缓解幻觉（hallucinations）问题。 * 自动化实验执行器通过将通用执行工具链与针对异构复杂临床数据格式定制的特定领域医学工具箱相结合，编排了一套可靠的验证管线，从而实现迭代式、具备自纠错能力的深度模型开发。 * 层次化论文撰写器通过一种具有增强叙事逻辑和可读性的结构化医学写作范式，将研究产出转化为连贯且基于证据的初稿。它还嵌入了伦理审查机制，严格按照医学出版政策记录数据使用情况。

为了解决自动化医学研究系统缺乏标准化评估协议的问题，我们引入了 Med-AI Bench（图 1b）。该基准测试包含 171 个高质量评估案例，围绕涵盖 6 种常见医学数据模态的 19 项不同研究任务展开。对于每项任务，我们选择了 3 篇难度各异（易、中、难）的代表性论文，并构建了 3 种不同输入模式的评估案例。该设计为全流程自动化医学研究系统的定性和定量评估提供了一个系统且统一的框架。如图 1c 所示，我们首先利用大语言模型和人类专家对研究构思的生成进行了评估（图 2）。结果显示，Medical AI Scientist 在创新性、成熟度、伦理合规性、泛化性、实用性和可解释性六个维度上均持续超越商业语言模型。随后，我们评估了实验执行情况，系统在所提方法与其具体实现之间表现出极强的对齐性（alignment），且生成可执行实验的成功率显著更高（图 4）。最后，在双盲评估下（图 1d, 5b & c），10 位独立领域专家将生成的论文与来自 MICCAI、ISBI 和 BIBM 等顶级会议的高质量人类撰写研究进行了对比评审；同时，所有投稿均由 Stanford Agentic Reviewer 按照 ICLR 对齐的标准进行了进一步评审（图 5a）。生成的论文平均得分为 $4.60 \pm 0.56$，在创新性、可复现性、连贯性和清晰度等关键维度上保持了竞争力，仅在覆盖范围上存在细微差距。定性反馈进一步表明，系统产出具有极强的实际应用相关性，表达清晰且无重大缺陷。此外，我们系统生成的一篇论文在经过同行评审后，已被**国际人工智能科学家大会（ICAIS 2025 [35]）**接收。这些结果共同表明，自动化系统可以加速复杂的方法学设计，凸显了其显著提升医学 AI 研究效率的潜力。