Identifying patient diagnoses from discharge letters is essential to enable large-scale cohort selection and epidemiological research, but traditional supervised approaches rely on extensive manual annotation, which is often impractical for large textual datasets. In this study, we present a novel weakly-supervised Natural Language Processing pipeline designed to classify Italian discharge letters without requiring manual labelling. After extracting diagnosis-related sentences, the method leverages a transformer-based model with an additional pre-training on Italian medical documents to generate semantic embeddings. A two-level clustering procedure is applied to these embeddings, and the resulting clusters are mapped to the diseases of interest to derive weak labels for a subset of data, eventually used to train a transformer-based classifier. We evaluate the approach on a real-world case study on bronchiolitis in a corpus of 33,176 Italian discharge letters of children admitted to 44 emergency rooms or hospitals in the Veneto Region between 2017 and 2020. The pipeline achieves an area under the curve (AUC) of 77.68% ($\pm 4.30\%)$ and an F1-score of 78.14% ($\pm 4.89\%$) against manual annotations. Its performance surpasses other unsupervised methods and approaches fully supervised models, maintaining robustness to cluster selection and promising generalizability across different disease types. It allows saving approximately 3 minutes of expert time per discharge letter, resulting in more than 1,500 hours for a dataset like ours. This study demonstrates the feasibility of a weakly-supervised strategy for identifying diagnoses from Italian discharge letters. The pipeline achieves strong performance, is adaptable to various diseases, and offers a scalable solution for clinical text classification, reducing the need for manual annotation while maintaining reliable accuracy.


翻译:从出院信函中识别患者诊断对于实现大规模队列选择和流行病学研究至关重要,但传统的监督方法依赖于大量人工标注,这对于大型文本数据集通常不切实际。在本研究中,我们提出了一种新颖的弱监督自然语言处理流程,旨在无需人工标注即可对意大利语出院信函进行分类。该方法在提取诊断相关句子后,利用一个基于Transformer的模型(该模型在意大利语医疗文档上进行了额外预训练)来生成语义嵌入。对这些嵌入应用两级聚类程序,并将得到的聚类映射到目标疾病,从而为数据子集生成弱标签,最终用于训练一个基于Transformer的分类器。我们在一个真实世界案例研究上评估了该方法:该研究针对细支气管炎,语料库包含2017年至2020年间威尼托大区44个急诊室或医院收治的儿童的33,176份意大利语出院信函。与人工标注相比,该流程实现了曲线下面积(AUC)为77.68%($\pm 4.30\%$)和F1分数为78.14%($\pm 4.89\%$)。其性能超越了其他无监督方法,并接近全监督模型,同时对聚类选择保持稳健性,并有望在不同疾病类型间具有良好的泛化能力。它可为每份出院信函节省约3分钟的专家时间,对于类似我们这样的数据集,总计可节省超过1,500小时。本研究证明了采用弱监督策略从意大利语出院信函中识别诊断的可行性。该流程实现了强大的性能,可适应多种疾病,并为临床文本分类提供了一个可扩展的解决方案,在保持可靠准确性的同时减少了对人工标注的需求。

0
下载
关闭预览

相关内容

【ICML2023】SEGA:结构熵引导的图对比学习锚视图
专知会员服务
23+阅读 · 2023年5月10日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员