Population-based cancer registries depend on pathology reports as their primary diagnostic source, yet manual abstraction is resource-intensive and contributes to delays in cancer data. While transformer-based NLP systems have improved registry workflows, their ability to generalize across jurisdictions with differing reporting conventions remains poorly understood. We present the first cross-provincial evaluation of adapting BCCRTron, a domain-adapted transformer model developed at the British Columbia Cancer Registry, alongside GatorTron, a biomedical transformer model, for cancer surveillance in Canada. Our training dataset consisted of approximately 104,000 and 22,000 de-identified pathology reports from the Newfoundland & Labrador Cancer Registry (NLCR) for Tier 1 (cancer vs. non-cancer) and Tier 2 (reportable vs. non-reportable) tasks, respectively. Both models were fine-tuned using complementary synoptic and diagnosis focused report section input pipelines. Across NLCR test sets, the adapted models maintained high performance, demonstrating transformers pretrained in one jurisdiction can be localized to another with modest fine-tuning. To improve sensitivity, we combined the two models using a conservative OR-ensemble achieving a Tier 1 recall of 0.99 and reduced missed cancers to 24, compared with 48 and 54 for the standalone models. For Tier 2, the ensemble achieved 0.99 recall and reduced missed reportable cancers to 33, compared with 54 and 46 for the individual models. These findings demonstrate that an ensemble combining complementary text representations substantially reduce missed cancers and improve error coverage in cancer-registry NLP. We implement a privacy-preserving workflow in which only model weights are shared between provinces, supporting interoperable NLP infrastructure and a future pan-Canadian foundation model for cancer pathology and registry workflows.


翻译:基于人群的癌症登记系统依赖病理报告作为主要诊断来源,但人工摘要提取资源密集且导致癌症数据延迟。尽管基于Transformer的NLP系统改进了登记工作流程,但其在具有不同报告规范的司法管辖区间的泛化能力仍知之甚少。我们首次进行了跨省评估,将不列颠哥伦比亚省癌症登记处开发的领域适应Transformer模型BCCRTron与生物医学Transformer模型GatorTron应用于加拿大癌症监测。我们的训练数据集分别包含来自纽芬兰与拉布拉多省癌症登记处(NLCR)的约104,000份和22,000份去标识化病理报告,用于第一层级(癌症与非癌症)和第二层级(需报告与非需报告)任务。两个模型均通过互补的概要式和诊断聚焦的报告章节输入流程进行微调。在NLCR测试集上,适应后的模型保持了高性能,表明在一个司法管辖区预训练的Transformer模型可通过适度微调本地化到另一管辖区。为提高灵敏度,我们采用保守OR集成方法结合两个模型,实现了第一层级召回率0.99,并将漏检癌症减少至24例,而独立模型分别为48例和54例。对于第二层级,集成模型实现0.99召回率,将漏检需报告癌症减少至33例,而独立模型分别为54例和46例。这些发现表明,结合互补文本表示的集成方法能显著减少癌症登记NLP中的漏检病例并提升错误覆盖范围。我们实施了隐私保护工作流程,仅在各省份间共享模型权重,支持可互操作的NLP基础设施及未来面向癌症病理和登记工作流程的全加拿大基础模型。

0
下载
关闭预览

相关内容

癌症是医学术语,其为最常见的恶性肿瘤,亦有人将癌症和恶性肿瘤混合使用。中医学中称岩,为由控制细胞分裂增殖机制失常而引起的疾病。癌细胞除了分裂失控外,还会局部侵入周遭正常组织甚至经由体内循环系统或淋巴系统转移到身体其他部分。
【ECCV2024】开放世界动态提示与持续视觉表征学习
专知会员服务
25+阅读 · 2024年9月10日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员