Foundation models pretrained on large-scale histopathology data have found great success in various fields of computational pathology, but their impact on regressive biomarker prediction remains underexplored. In this work, we systematically evaluate histopathological foundation models for regression-based tasks, demonstrated through the prediction of homologous recombination deficiency (HRD) score - a critical biomarker for personalized cancer treatment. Within multiple instance learning frameworks, we extract patch-level features from whole slide images (WSI) using five state-of-the-art foundation models, and evaluate their impact compared to contrastive learning-based features. Models are trained to predict continuous HRD scores based on these extracted features across breast, endometrial, and lung cancer cohorts from two public medical data collections. Extensive experiments demonstrate that models trained on foundation model features consistently outperform the baseline in terms of predictive accuracy and generalization capabilities while exhibiting systematic differences among the foundation models. Additionally, we propose a distribution-based upsampling strategy to mitigate target imbalance in these datasets, significantly improving the recall and balanced accuracy for underrepresented but clinically important patient populations. Furthermore, we investigate the impact of different sampling strategies and instance bagsizes by ablation studies. Our results highlight the benefits of large-scale histopathological pretraining for more precise and transferable regressive biomarker prediction, showcasing its potential to advance AI-driven precision oncology.


翻译:在大规模组织病理学数据上预训练的基础模型已在计算病理学的多个领域取得显著成功,但其对回归性生物标志物预测的影响仍未得到充分探索。本研究系统评估了组织病理学基础模型在回归任务中的应用,具体通过预测同源重组缺陷(HRD)评分——一种用于个性化癌症治疗的关键生物标志物——进行验证。在多重实例学习框架内,我们使用五种先进的基础模型从全切片图像(WSI)中提取斑块级特征,并与基于对比学习的特征进行影响比较。模型基于从两个公共医学数据集中收集的乳腺癌、子宫内膜癌和肺癌队列提取的特征,训练预测连续HRD评分。大量实验表明,基于基础模型特征训练的模型在预测准确性和泛化能力方面持续优于基线模型,同时不同基础模型间表现出系统性差异。此外,我们提出一种基于分布的上采样策略以缓解这些数据集中的目标不平衡问题,显著提高了代表性不足但具有重要临床意义的患者群体的召回率与平衡准确率。进一步地,我们通过消融研究探讨了不同采样策略和实例包大小的影响。我们的研究结果凸显了大规模组织病理学预训练对实现更精确、可迁移的回归性生物标志物预测的益处,展示了其在推进人工智能驱动的精准肿瘤学方面的潜力。

0
下载
关闭预览

相关内容

基础模型促进医疗保健:挑战、机遇与未来发展方向
专知会员服务
32+阅读 · 2024年4月5日
【华侨大学】基于混合深度学习算法的疾病预测模型
专知会员服务
97+阅读 · 2020年1月21日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
大讲堂 | 基于医疗知识的疾病诊断预测
AI科技评论
10+阅读 · 2019年1月22日
深度学习在CTR预估中的应用 | CTR深度模型大盘点
PaperWeekly
15+阅读 · 2018年4月11日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员