The interpretation of chest X-rays (CXRs) poses significant challenges, particularly in achieving accurate multi-label pathology classification and spatial localization. These tasks demand different levels of annotation granularity but are frequently constrained by the scarcity of region-level (dense) annotations. We introduce CLARiTy (Class Localizing and Attention Refining Image Transformer), a vision transformer-based model for joint multi-label classification and weakly-supervised localization of thoracic pathologies. CLARiTy employs multiple class-specific tokens to generate discriminative attention maps, and a SegmentCAM module for foreground segmentation and background suppression using explicit anatomical priors. Trained on image-level labels from the NIH ChestX-ray14 dataset, it leverages distillation from a ConvNeXtV2 teacher for efficiency. Evaluated on the official NIH split, the CLARiTy-S-16-512 (a configuration of CLARiTy), achieves competitive classification performance across 14 pathologies, and state-of-the-art weakly-supervised localization performance on 8 pathologies, outperforming prior methods by 50.7%. In particular, pronounced gains occur for small pathologies like nodules and masses. The lower-resolution variant of CLARiTy, CLARiTy-S-16-224, offers high efficiency while decisively surpassing baselines, thereby having the potential for use in low-resource settings. An ablation study confirms contributions of SegmentCAM, DINO pretraining, orthogonal class token loss, and attention pooling. CLARiTy advances beyond CNN-ViT hybrids by harnessing ViT self-attention for global context and class-specific localization, refined through convolutional background suppression for precise, noise-reduced heatmaps.


翻译:胸部X光片(CXR)的解读面临重大挑战,尤其是在实现精确的多标签病理分类与空间定位方面。这些任务需要不同粒度的标注,但常受限于区域级(密集)标注的稀缺性。我们提出CLARiTy(类别定位与注意力优化图像Transformer),这是一种基于视觉Transformer的模型,用于胸部病理的联合多标签分类与弱监督定位。CLARiTy采用多个类别特定令牌生成判别性注意力图,并通过SegmentCAM模块结合显式解剖学先验进行前景分割与背景抑制。该模型使用NIH ChestX-ray14数据集的图像级标签进行训练,并利用ConvNeXtV2教师模型的蒸馏提升效率。在NIH官方数据集划分上的评估表明,CLARiTy-S-16-512(CLARiTy的一种配置)在14种病理分类任务中取得具有竞争力的性能,并在8种病理的弱监督定位任务中达到最先进水平,较先前方法提升50.7%。尤其对于结节、肿块等小尺寸病理,其性能提升更为显著。低分辨率变体CLARiTy-S-16-224在保持高效率的同时显著超越基线模型,具备在低资源场景应用的潜力。消融实验证实了SegmentCAM模块、DINO预训练、正交类别令牌损失及注意力池化机制的有效贡献。CLARiTy通过利用ViT自注意力机制获取全局上下文与类别特定定位,并借助卷积背景抑制技术生成精确且降噪的热力图,实现了对CNN-ViT混合模型的超越。

0
下载
关闭预览

相关内容

VILA-U:一个融合视觉理解与生成的统一基础模型
专知会员服务
21+阅读 · 2024年9月9日
【AAAI2021】“可瘦身”的生成式对抗网络
专知会员服务
13+阅读 · 2020年12月12日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
18+阅读 · 2024年12月27日
A Survey of Large Language Models
Arxiv
499+阅读 · 2023年3月31日
Learning from Few Samples: A Survey
Arxiv
77+阅读 · 2020年7月30日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员