Pathology foundation models (PFMs) have become central to computational pathology, aiming to offer general encoders for feature extraction from whole-slide images (WSIs). Despite strong benchmark performance, PFM robustness to real-world technical domain shifts, such as variability from whole-slide scanner devices, remains poorly understood. We systematically evaluated the robustness of 14 PFMs to scanner-induced variability, including state-of-the-art models, earlier self-supervised models, and a baseline trained on natural images. Using a multiscanner dataset of 384 breast cancer WSIs scanned on five devices, we isolated scanner effects independently from biological and laboratory confounders. Robustness is assessed via complementary unsupervised embedding analyses and a set of clinicopathological supervised prediction tasks. Our results demonstrate that current PFMs are not invariant to scanner-induced domain shifts. Most models encode pronounced scanner-specific variability in their embedding spaces. While AUC often remains stable, this masks a critical failure mode: scanner variability systematically alters the embedding space and impacts calibration of downstream model predictions, resulting in scanner-dependent bias that can impact reliability in clinical use cases. We further show that robustness is not a simple function of training data scale, model size, or model recency. None of the models provided reliable robustness against scanner-induced variability. While the models trained on the most diverse data, here represented by vision-language models, appear to have an advantage with respect to robustness, they underperformed on downstream supervised tasks. We conclude that development and evaluation of PFMs requires moving beyond accuracy-centric benchmarks toward explicit evaluation and optimisation of embedding stability and calibration under realistic acquisition variability.


翻译:病理学基础模型已成为计算病理学的核心,旨在为全切片图像的特征提取提供通用编码器。尽管在基准测试中表现出色,但PFM对现实世界技术性域偏移(如全切片扫描仪设备带来的变异性)的鲁棒性仍鲜为人知。我们系统评估了14个PFM对扫描仪诱发变异性的鲁棒性,包括最先进的模型、早期自监督模型以及在自然图像上训练的基线模型。利用在五台设备上扫描的384张乳腺癌全切片图像构建的多扫描仪数据集,我们独立于生物学和实验室混杂因素分离出扫描仪效应。通过互补的无监督嵌入分析和一系列临床病理学监督预测任务评估鲁棒性。研究结果表明,当前PFM对扫描仪诱导的域偏移不具有不变性。大多数模型在其嵌入空间中编码了显著的扫描仪特异性变异性。虽然AUC通常保持稳定,但这掩盖了一个关键失效模式:扫描仪变异性系统性地改变嵌入空间并影响下游模型预测的校准,导致扫描仪依赖性偏差,可能影响临床使用场景的可靠性。我们进一步证明,鲁棒性并非训练数据规模、模型大小或模型时效性的简单函数。所有模型均未能针对扫描仪诱导的变异性提供可靠的鲁棒性。虽然在最多样化数据上训练的模型(此处以视觉-语言模型为代表)在鲁棒性方面似乎具有优势,但其在下游监督任务中表现欠佳。我们得出结论:PFM的开发与评估需要超越以准确性为中心的基准测试,转向在真实采集变异性下对嵌入稳定性和校准的显式评估与优化。

0
下载
关闭预览

相关内容

论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员