We introduce an in-domain supervised pipeline designed to counter the out-of-distribution performance drop that hampers supervised biomedical NLP models, a problem observed when models trained on pathology reports are moved across cancer registries. Our contribution is a reproducible recipe for training a supervised classifier from routinely collected cancer registry data. It describes how to build the in-domain training set and a production-matched holdout, and to choose operating points that keep the false-negative rate (FNR) very low while keeping reviewer workload manageable. The pipeline standardizes data curation with facility-stratified sampling and separate handling of reports linked to registry cases, and includes a blinded manual audit to estimate positive-case prevalence and label noise. On a 418k-report holdout set, the Kentucky model achieved FNR 0.003 and false-positive rate (FPR) 0.097, improving over the Seattle-trained MOSSAIC OncoID baseline (FNR 0.010, FPR 0.183) and raising F1 from 0.860 to 0.922. In a blinded manual review of 600 reports, estimated positive prevalence declined from 0.500 to 0.398, indicating substantial label noise with errors concentrated in rare primary sites.


翻译:我们提出一种面向领域的有监督流程,旨在缓解阻碍生物医学自然语言处理模型在分布外场景下性能下降的问题,该现象在病理报告模型跨癌症登记处迁移时尤为显著。本研究的贡献在于提供一套基于常规收集的癌症登记数据训练有监督分类器的可复现方案。该方案详细描述了如何构建领域内训练集与生产级匹配的保留集,并选择在保持极低假阴性率(FNR)的同时控制审阅者工作量的操作点。该流程通过设施分层采样、单独处理与登记病例关联的报告来标准化数据整理,并引入盲法人工审计以估算阳性病例患病率与标注噪声。在包含418,000份报告的保留集上,肯塔基州模型实现了FNR 0.003与假阳性率(FPR)0.097,较西雅图训练的MOSSAIC OncoID基线(FNR 0.010,FPR 0.183)显著提升,F1分数从0.860提高至0.922。在对600份报告进行的盲法人工审阅中,估算阳性患病率从0.500降至0.398,表明存在显著标注噪声,且错误集中于罕见原发部位。

0
下载
关闭预览

相关内容

【资源】领域自适应相关论文、代码分享
专知
32+阅读 · 2019年10月12日
【CVPR2019】弱监督图像分类建模
深度学习大讲堂
38+阅读 · 2019年7月25日
病理图像的全景分割
人工智能前沿讲习班
16+阅读 · 2019年6月1日
领域自适应学习论文大列表
专知
71+阅读 · 2019年3月2日
半监督深度学习小结:类协同训练和一致性正则化
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 从问答到任务完成:Agent系统与Harness设计
专知会员服务
1+阅读 · 今天16:54
Agentic RL:框架、实践与长程智能体训练
专知会员服务
1+阅读 · 今天16:52
重新思考无人机时代的生存能力
专知会员服务
5+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
4+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
6+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关VIP内容
相关资讯
【资源】领域自适应相关论文、代码分享
专知
32+阅读 · 2019年10月12日
【CVPR2019】弱监督图像分类建模
深度学习大讲堂
38+阅读 · 2019年7月25日
病理图像的全景分割
人工智能前沿讲习班
16+阅读 · 2019年6月1日
领域自适应学习论文大列表
专知
71+阅读 · 2019年3月2日
半监督深度学习小结:类协同训练和一致性正则化
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员