Pathology foundation models (PFMs) have emerged as powerful pretrained encoders for computational pathology, but their robustness under clinically relevant distribution shifts remains insufficiently understood. We benchmark the robustness of recent PFMs in the setting of prostate cancer grading from whole-slide images (WSIs). Using the PANDA dataset, we evaluate PFMs as frozen patch-level feature extractors within weakly supervised slide-level grading models, and assess robustness to two important forms of distribution shift: shifts in WSI image appearance across collection sites, and shifts in the label distribution over cancer grade groups. Across in-distribution settings, PFMs consistently achieve strong performance and clearly outperform a natural-image baseline. Under cross-site transfer from Radboud to Karolinska, however, performance drops substantially for all models, showing that large-scale pretraining alone does not guarantee robust downstream generalization. In contrast, PFMs are less sensitive to label-distribution shift, indicating that visually grounded domain shift is the dominant challenge. Representation analysis further supports these findings by revealing persistent domain separation between sites across all PFMs. While grade-related structure is present, it is comparatively weak, indicating that domain-related variation dominates in the learned feature space. Together, these results provide a comprehensive benchmark of PFMs under distribution shift and highlight an important practical message: although PFMs provide strong representations, generalizability remains constrained by the quality and diversity of the data used to train downstream prediction models.


翻译:病理基础模型(PFM)已成为计算病理学中强大的预训练编码器,但其在临床相关分布偏移下的鲁棒性尚未得到充分理解。我们以全景切片图像(WSI)的前列腺癌分级为场景,对近期PFM的鲁棒性进行了基准测试。利用PANDA数据集,我们将PFM作为弱监督切片级分级模型中的冻结图块级特征提取器进行评估,并检验其对两种重要分布偏移的鲁棒性:不同采集站点间WSI图像外观的偏移,以及癌症分级标签分布的偏移。在分布内设置下,PFM始终表现优异,且明显优于自然图像基线。然而,在从Radboud到Karolinska的跨站点迁移中,所有模型的性能均显著下降,表明大规模预训练本身并不能保证鲁棒的下游泛化能力。相比之下,PFM对标签分布偏移的敏感性较低,这表明视觉上的域偏移是主要挑战。表征分析进一步支持了这些发现,揭示了所有PFM在不同站点间均存在持续的域分离。尽管存在与分级相关的结构,但其相对较弱,表明在学习的特征空间中,域相关变异占据主导地位。综合来看,这些结果为分布偏移下的PFM提供了全面的基准测试,并强调了一个重要的实践启示:尽管PFM提供了强大的表征,但其泛化能力仍受限于下游预测模型训练数据的质量与多样性。

0
下载
关闭预览

相关内容

【MIT博士论文】理解与提升机器学习模型的表征鲁棒性
专知会员服务
29+阅读 · 2024年8月26日
【斯坦福博士论文】基础模型的数据分布视角,321页pdf
专知会员服务
42+阅读 · 2024年7月8日
【NeurIPS2023】从视觉-语言基础模型中提取分布外鲁棒性
专知会员服务
21+阅读 · 2023年11月4日
面向图像分类的对抗鲁棒性评估综述
专知会员服务
59+阅读 · 2022年10月15日
肿瘤微环境评分: 预测肿瘤免疫治疗疗效的新方法
基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】
人工智能前沿讲习班
27+阅读 · 2018年12月13日
深度学习在CTR预估中的应用 | CTR深度模型大盘点
PaperWeekly
15+阅读 · 2018年4月11日
[推荐] 这些年,我用过的点击率(CTR)预估模型!!!
菜鸟的机器学习
28+阅读 · 2017年7月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
2+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
3+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
3+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员