Histopathology foundation models (HFMs), pretrained on large-scale cancer datasets, have advanced computational pathology. However, their applicability to non-cancerous chronic kidney disease remains underexplored, despite coexistence of renal pathology with malignancies such as renal cell and urothelial carcinoma. We systematically evaluate 11 publicly available HFMs across 11 kidney-specific downstream tasks spanning multiple stains (PAS, H&E, PASM, and IHC), spatial scales (tile and slide-level), task types (classification, regression, and copy detection), and clinical objectives, including detection, diagnosis, and prognosis. Tile-level performance is assessed using repeated stratified group cross-validation, while slide-level tasks are evaluated using repeated nested stratified cross-validation. Statistical significance is examined using Friedman test followed by pairwise Wilcoxon signed-rank testing with Holm-Bonferroni correction and compact letter display visualization. To promote reproducibility, we release an open-source Python package, kidney-hfm-eval, available at https://pypi.org/project/kidney-hfm-eval/ , that reproduces the evaluation pipelines. Results show moderate to strong performance on tasks driven by coarse meso-scale renal morphology, including diagnostic classification and detection of prominent structural alterations. In contrast, performance consistently declines for tasks requiring fine-grained microstructural discrimination, complex biological phenotypes, or slide-level prognostic inference, largely independent of stain type. Overall, current HFMs appear to encode predominantly static meso-scale representations and may have limited capacity to capture subtle renal pathology or prognosis-related signals. Our results highlight the need for kidney-specific, multi-stain, and multimodal foundation models to support clinically reliable decision-making in nephrology.


翻译:组织病理学基础模型(HFMs)通过在大规模癌症数据集上预训练,推动了计算病理学的发展。然而,尽管肾脏病理与恶性肿瘤(如肾细胞癌和尿路上皮癌)共存,这些模型在非癌性慢性肾病中的适用性仍未被充分探索。我们系统评估了11个公开可用的HFMs,涵盖11项肾脏特异性下游任务,这些任务涉及多种染色方式(PAS、H&E、PASM和IHC)、空间尺度(图块级和切片级)、任务类型(分类、回归和拷贝检测)及临床目标(包括检测、诊断和预后)。图块级性能通过重复分层组交叉验证进行评估,而切片级任务则采用重复嵌套分层交叉验证。统计显著性采用Friedman检验,随后进行配对Wilcoxon符号秩检验、Holm-Bonferroni校正及紧凑字母显示可视化。为促进可重复性,我们发布开源Python工具包kidney-hfm-eval(访问地址:https://pypi.org/project/kidney-hfm-eval/),可复现评估流程。结果表明,在由粗糙中尺度肾脏形态驱动的任务中(包括诊断分类和显著结构改变的检测),模型表现出中等至强性能。相比之下,在需要细微显微结构判别、复杂生物学表型或切片级预后推断的任务中,性能持续下降,且与染色类型基本无关。总体而言,当前HFMs主要编码静态中尺度表征,可能难以捕捉微妙的肾脏病理或预后相关信号。我们的结果强调,需要开发肾脏特异性、多染色及多模态基础模型,以支持肾病学中具备临床可靠性的决策。

0
下载
关闭预览

相关内容

生物医学基础模型:综述
专知会员服务
36+阅读 · 2025年3月8日
基础模型视频理解综述
专知会员服务
32+阅读 · 2024年5月8日
基础模型促进医疗保健:挑战、机遇与未来发展方向
专知会员服务
33+阅读 · 2024年4月5日
病理图像的全景分割
人工智能前沿讲习班
16+阅读 · 2019年6月1日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
7+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
Top
微信扫码咨询专知VIP会员