Class Activation Mapping (CAM) methods are widely used to generate visual explanations for deep learning classifiers in medical imaging. However, existing evaluation frameworks assess whether explanations are correct, measured by localisation fidelity against radiologist annotations, rather than whether they are consistent: whether the model applies the same spatial reasoning strategy across different patients with the same pathology. We propose the C-Score (Consistency Score), a confidence-weighted, annotation-free metric that quantifies intra-class explanation reproducibility via intensity-emphasised pairwise soft IoU across correctly classified instances. We evaluate six CAM techniques: GradCAM, GradCAM++, LayerCAM, EigenCAM, ScoreCAM, and MS GradCAM++ across three CNN architectures (DenseNet201, InceptionV3, ResNet50V2) over thirty training epochs on the Kermany chest X-ray dataset, covering transfer learning and fine-tuning phases. We identify three distinct mechanisms of AUC-consistency dissociation, invisible to standard classification metrics: threshold-mediated gold list collapse, technique-specific attribution collapse at peak AUC, and class-level consistency masking in global aggregation. C-Score provides an early warning signal of impending model instability. ScoreCAM deterioration on ResNet50V2 is detectable one full checkpoint before catastrophic AUC collapse and yields architecture-specific clinical deployment recommendations grounded in explanation quality rather than predictive ranking alone.


翻译:摘要:类激活映射(CAM)方法广泛用于生成医学图像中深度学习分类器的可视化解释。然而,现有评估框架仅衡量解释的正确性(即通过与放射科医生标注的定位保真度进行对比),而非一致性——即模型是否对患有相同病理的不同患者应用相同的空间推理策略。本文提出C-Score(一致性得分),一种基于置信度加权、无需标注的度量指标,通过强度加权的逐对软交并比(soft IoU)量化正确分类实例中的类内解释可复现性。我们在Kermany胸部X光数据集上,覆盖迁移学习与微调阶段,使用三种CNN架构(DenseNet201、InceptionV3、ResNet50V2)对六种CAM技术(GradCAM、GradCAM++、LayerCAM、EigenCAM、ScoreCAM和MS GradCAM++)进行了三十个训练周期的评估。我们识别出三种标准分类指标无法察觉的AUC-一致性解耦机制:阈值介导的金标准列表坍缩、峰值AUC处技术特异性归因坍缩,以及全局聚合中的类别级别一致性掩蔽。C-Score可提供模型即将不稳定的早期预警信号——在灾难性AUC崩塌前一个完整检查点即可检测到ResNet50V2上ScoreCAM的性能退化,并基于解释质量而非单纯预测排名给出架构特异性的临床部署建议。

0
下载
关闭预览

相关内容

视觉识别中的可解释性综述
专知会员服务
23+阅读 · 2025年7月17日
可解释图推荐系统
专知会员服务
25+阅读 · 2024年8月4日
【ACMMM2024】处理医疗图像分类中类增量学习的失衡问题
专知会员服务
18+阅读 · 2024年7月21日
高效医疗图像分析的统一表示
专知会员服务
36+阅读 · 2020年6月23日
深度学习可解释性研究进展
专知
19+阅读 · 2020年6月26日
【综述】医疗可解释人工智能综述论文
专知
33+阅读 · 2019年7月18日
医疗中的自动机器学习和可解释性
专知
24+阅读 · 2019年4月1日
半监督深度学习小结:类协同训练和一致性正则化
机器学习模型的“可解释性”到底有多重要?
中国科学院自动化研究所
20+阅读 · 2018年3月1日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员