深度学习在医疗应用中展现出巨大潜力。然而,其成功往往高度依赖大规模、高质量的数据集,而这一条件在现实医疗场景中鲜能满足——医疗数据通常表现出稀缺性、不完整性或获取成本昂贵的特点。这种局限性贯穿了医疗机器学习的整个建模流水线 (Modelling Pipeline),涵盖了从训练数据的匮乏到部署阶段测量成本高昂等诸多挑战。本论文提出了一系列技术方案,旨在解决机器学习流程各阶段所面临的上述难题。 第一项贡献侧重于在训练大型预测模型前从可用数据中提取洞察。我们引入了 CompFS,这是一种集成学习方法,旨在识别那些“联合预测性强但单项信息量弱”的特征组。该方法泛化了传统的特征选择问题,并为领域专家(如发现疾病上位性效应的遗传学家)提供了一种识别特征间交互作用的手段。由此获得的见解可进一步指导后续建模,或辅助科学家构建机制模型 (Mechanistic Models)。
第二项贡献聚焦于生成合成训练数据,以应对生存模型(用于预测患者预后的核心工具)训练数据有限的挑战。我们识别了生成合成生存数据时的三种常见失效模式,并据此提出了衡量合成数据质量的三个评估指标。此外,我们开发了 SurvivalGAN,这是一种基于生成对抗网络 (GAN) 的模型,可在真实训练集受限时生成高质量的合成生存数据。
第三项贡献探讨了主动特征获取 (Active Feature Acquisition),即特征选择的另一种泛化形式。在部署阶段特征测量成本昂贵的背景下,系统必须动态选择最优的测量项以提升预测精度。以临床诊断为例,医生会根据对特定病情的理解,优先排序检查项目。我们提出了 SEFA,一种旨在克服现有方法缺陷的隐变量模型。该工具显著提升了部署时的特征利用效率,使机器学习系统能在资源受限下做出更优决策。 最后,第四项贡献回归至机器学习流程的“第零阶段”。我们探讨了在数据采集、建模或分析之前,关于数据选择的宏观决策问题。通过对多发性硬化症预测任务的研究,我们探索了利用廉价特征的可行性,这些特征在训练阶段充足且在部署时成本较低。通过对四种基于神经微分方程 (Neural Differential Equation) 的模型进行基准测试,我们证明了医疗数据并非必须依赖稀缺的高价样本才能实现高效建模。 纵观各项贡献,我们利用真实世界的表格及生物医学数据集进行了广泛评估。实验结果表明,我们的方法在性能上一致优于或等同于当前最先进的基准模型 (State-of-the-art)。深入的消融实验 (Ablations) 与敏感性分析进一步验证了各模型设计方案的有效性。综上所述,这些贡献为应对医疗领域的数据稀缺性提供了一套多样化的策略。此外,由于多数方法对数据进行了抽象化处理,其影响力可进一步泛化至其他领域。通过聚焦建模全过程中的差异化挑战,本论文不仅提供了实用的工具,也为未来研究奠定了坚实的理论基础。