Automated international classification of diseases (ICD) coding aims to assign multiple disease codes to clinical documents and plays a critical role in healthcare informatics. However, its performance is hindered by the extreme long-tail distribution of the ICD ontology, where a few common codes dominate while thousands of rare codes have very few examples. To address this issue, we propose a Probability-Biased Directed Graph Attention model (ProBias) that partitions codes into common and rare sets and allows information to flow only from common to rare codes. Edge weights are determined by conditional co-occurrence probabilities, which guide the attention mechanism to enrich rare-code representations with clinically related signals. To provide higher-quality semantic representations as model inputs, we further employ large language models to generate enriched textual descriptions for ICD codes, offering external clinical context that complements statistical co-occurrence signals. Applied to automated ICD coding, our approach significantly improves the representation and prediction of rare codes, achieving state-of-the-art performance on three benchmark datasets. In particular, we observe substantial gains in macro-averaged F1 score, a key metric for long-tail classification.


翻译:自动化国际疾病分类编码旨在为临床文档分配多个疾病代码,在医疗信息学中发挥着关键作用。然而,其性能受到ICD本体极端长尾分布的制约:少数常见代码占据主导地位,而数千个罕见代码的样本极少。为解决此问题,我们提出了一种概率偏置有向图注意力模型,该模型将代码划分为常见集与罕见集,并仅允许信息从常见代码流向罕见代码。边权重由条件共现概率确定,从而引导注意力机制利用临床相关信号增强罕见代码的表征。为进一步提供更高质量的语义表征作为模型输入,我们采用大语言模型为ICD代码生成增强的文本描述,提供补充统计共现信号的外部临床上下文。将本方法应用于自动化ICD编码任务时,我们的方法显著改善了罕见代码的表征与预测能力,在三个基准数据集上取得了最先进的性能。特别值得注意的是,我们在宏观平均F1分数这一长尾分类关键指标上获得了显著提升。

0
下载
关闭预览

相关内容

代码(Code)是专知网的一个重要知识资料文档板块,旨在整理收录论文源代码、复现代码,经典工程代码等,便于用户查阅下载使用。
【干货书】代数编码理论导论
专知会员服务
44+阅读 · 2023年9月13日
《分布式多智能体强化学习的编码》加州大学等
专知会员服务
55+阅读 · 2022年11月2日
用Attention玩转CV,一文总览自注意力语义分割进展
图分类:结合胶囊网络Capsule和图卷积GCN(附代码)
中国人工智能学会
36+阅读 · 2019年2月26日
深度学习文本分类方法综述(代码)
中国人工智能学会
28+阅读 · 2018年6月16日
【干货】深入理解变分自编码器
专知
21+阅读 · 2018年3月22日
【干货】深入理解自编码器(附代码实现)
【干货】一文读懂什么是变分自编码器
专知
12+阅读 · 2018年2月11日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Arxiv
0+阅读 · 1月15日
Arxiv
0+阅读 · 1月12日
VIP会员
相关VIP内容
【干货书】代数编码理论导论
专知会员服务
44+阅读 · 2023年9月13日
《分布式多智能体强化学习的编码》加州大学等
专知会员服务
55+阅读 · 2022年11月2日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员