Supervised deep learning models often achieve excellent performance within their training distribution but struggle to generalize beyond it. In cancer histopathology, for example, a convolutional neural network (CNN) may classify cancer severity accurately for cancer types represented in its training data, yet fail on related but unseen types. Although adenocarcinomas from different organs share morphological features that might support limited cross-domain generalization, addressing domain shift directly is necessary for robust performance. Domain adaptation offers a way to transfer knowledge from labeled data in one cancer type to unlabeled data in another, helping mitigate the scarcity of annotated medical images. This work evaluates cross-domain classification performance among lung, colon, breast, and kidney adenocarcinomas. A ResNet50 trained on any single adenocarcinoma achieves over 98% accuracy on its own domain but shows minimal generalization to others. Ensembling multiple supervised models does not resolve this limitation. In contrast, converting the ResNet50 into a domain adversarial neural network (DANN) substantially improves performance on unlabeled target domains. A DANN trained on labeled breast and colon data and adapted to unlabeled lung data reaches 95.56% accuracy. We also examine the impact of stain normalization on domain adaptation. Its effects vary by target domain: for lung, accuracy drops from 95.56% to 66.60%, while for breast and colon targets, stain normalization boosts accuracy from 49.22% to 81.29% and from 78.48% to 83.36%, respectively. Finally, using Integrated Gradients reveals that DANNs consistently attribute importance to biologically meaningful regions such as densely packed nuclei, indicating that the model learns clinically relevant features and can apply them to unlabeled cancer types.


翻译:监督式深度学习模型通常在训练数据分布内表现出色,但在分布外泛化能力有限。例如在癌症组织病理学中,卷积神经网络(CNN)能对训练数据中已出现的癌症类型准确分类其严重程度,却无法有效处理相关但未见过的类型。尽管不同器官的腺癌具有共享的形态学特征,可能支持有限的跨领域泛化,但要实现稳健性能仍需直接应对领域偏移问题。领域自适应技术提供了一种将知识从一种癌症类型的标注数据迁移至另一种癌症类型的未标注数据的方法,有助于缓解医学标注图像稀缺的困境。本研究评估了肺、结肠、乳腺及肾脏腺癌的跨领域分类性能。在单一腺癌数据上训练的ResNet50模型在其本领域准确率超过98%,但对其他领域的泛化能力极弱。集成多个监督模型亦无法突破此局限。相比之下,将ResNet50转换为领域对抗神经网络(DANN)可显著提升在未标注目标领域的性能:基于标注乳腺与结肠数据训练并适配未标注肺数据的DANN模型准确率达到95.56%。本研究同时检验了染色标准化对领域自适应的影响,其效果因目标领域而异:对于肺腺癌,染色标准化使准确率从95.56%降至66.60%;而对于乳腺与结肠目标领域,染色标准化分别将准确率从49.22%提升至81.29%、从78.48%提升至83.36%。最后,通过集成梯度方法发现,DANN模型持续将重要性归因于具有生物学意义的区域(如密集细胞核区域),表明该模型能学习临床相关特征并将其应用于未标注的癌症类型。

0
下载
关闭预览

相关内容

癌症是医学术语,其为最常见的恶性肿瘤,亦有人将癌症和恶性肿瘤混合使用。中医学中称岩,为由控制细胞分裂增殖机制失常而引起的疾病。癌细胞除了分裂失控外,还会局部侵入周遭正常组织甚至经由体内循环系统或淋巴系统转移到身体其他部分。
【伯克利博士论文】学习跨领域的可迁移表示
专知会员服务
47+阅读 · 2022年8月17日
深度学习在癌症诊断、预后和治疗选择中的应用
专知会员服务
56+阅读 · 2022年6月18日
迁移学习之Domain Adaptation
全球人工智能
18+阅读 · 2018年4月11日
深度学习中的五大正则化方法和七大优化策略
全球人工智能
11+阅读 · 2017年12月25日
迁移学习在深度学习中的应用
专知
24+阅读 · 2017年12月24日
深度学习(可视化部分)-使用keras识别猫咪
北京思腾合力科技有限公司
10+阅读 · 2017年11月30日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员