Enhancing Rare Codes via Probability-Biased Directed Graph Attention for Long-Tail ICD Coding - 专知论文

会员服务 ·

0

代码 · 概率 · 偏置 · 有向 · 有向图 ·

Enhancing Rare Codes via Probability-Biased Directed Graph Attention for Long-Tail ICD Coding

翻译：基于概率偏置有向图注意力增强长尾ICD编码中的罕见代码

Tianlei Chen,Yuxiao Chen,Yang Li,Feifei Wang

Automated international classification of diseases (ICD) coding aims to assign multiple disease codes to clinical documents and plays a critical role in healthcare informatics. However, its performance is hindered by the extreme long-tail distribution of the ICD ontology, where a few common codes dominate while thousands of rare codes have very few examples. To address this issue, we propose a Probability-Biased Directed Graph Attention model (ProBias) that partitions codes into common and rare sets and allows information to flow only from common to rare codes. Edge weights are determined by conditional co-occurrence probabilities, which guide the attention mechanism to enrich rare-code representations with clinically related signals. To provide higher-quality semantic representations as model inputs, we further employ large language models to generate enriched textual descriptions for ICD codes, offering external clinical context that complements statistical co-occurrence signals. Applied to automated ICD coding, our approach significantly improves the representation and prediction of rare codes, achieving state-of-the-art performance on three benchmark datasets. In particular, we observe substantial gains in macro-averaged F1 score, a key metric for long-tail classification.

翻译：自动化国际疾病分类编码旨在为临床文档分配多个疾病代码，在医疗信息学中发挥着关键作用。然而，其性能受到ICD本体极端长尾分布的制约：少数常见代码占据主导地位，而数千个罕见代码的样本极少。为解决此问题，我们提出了一种概率偏置有向图注意力模型，该模型将代码划分为常见集与罕见集，并仅允许信息从常见代码流向罕见代码。边权重由条件共现概率确定，从而引导注意力机制利用临床相关信号增强罕见代码的表征。为进一步提供更高质量的语义表征作为模型输入，我们采用大语言模型为ICD代码生成增强的文本描述，提供补充统计共现信号的外部临床上下文。将本方法应用于自动化ICD编码任务时，我们的方法显著改善了罕见代码的表征与预测能力，在三个基准数据集上取得了最先进的性能。特别值得注意的是，我们在宏观平均F1分数这一长尾分类关键指标上获得了显著提升。

0

相关内容

代码（Code）是专知网的一个重要知识资料文档板块，旨在整理收录论文源代码、复现代码，经典工程代码等，便于用户查阅下载使用。

【博士论文】无监督深度图聚类中的自适应表示学习，144页pdf

【博士论文】无监督深度图聚类中的自适应表示学习，144页pdf

专知会员服务

43+阅读 · 2023年10月21日

【干货书】代数编码理论导论

【干货书】代数编码理论导论

专知会员服务

44+阅读 · 2023年9月13日

【CVPR2023】魔鬼在查询中:面向真实世界医学图像分割和分布外定位的改进掩模transformer

【CVPR2023】魔鬼在查询中:面向真实世界医学图像分割和分布外定位的改进掩模transformer

专知会员服务

25+阅读 · 2023年4月5日

《分布式多智能体强化学习的编码》加州大学等

《分布式多智能体强化学习的编码》加州大学等

专知会员服务

55+阅读 · 2022年11月2日

港科大最新《深度学习医学图像分割MedISeg》综述论文，21页pdf涵盖212篇文献阐述MedISeg技巧、挑战和未来方向

港科大最新《深度学习医学图像分割MedISeg》综述论文，21页pdf涵盖212篇文献阐述MedISeg技巧、挑战和未来方向

专知会员服务

42+阅读 · 2022年9月22日

【ACL2022】解释生成的多尺度分布深度变分自编码器, Multi-Scale Distribution Deep Variational Autoencoder for Explanation Generation

【ACL2022】解释生成的多尺度分布深度变分自编码器, Multi-Scale Distribution Deep Variational Autoencoder for Explanation Generation

专知会员服务

12+阅读 · 2022年3月24日

【ICCV2021】残差注意力：一种简单但是有效的多标签图像识别方法

专知会员服务

17+阅读 · 2021年8月26日

【KDD2020-清华大学】自适应图编码器，Adaptive Graph Encoder for Attributed Graph Embedding

【KDD2020-清华大学】自适应图编码器，Adaptive Graph Encoder for Attributed Graph Embedding

专知会员服务

99+阅读 · 2020年7月6日

【论文推荐】Short Text Classiﬁcation via Term Graph 基于术语图的短文本分类

【论文推荐】Short Text Classiﬁcation via Term Graph 基于术语图的短文本分类

专知会员服务

20+阅读 · 2020年1月20日

【CIKM 2019论文】重力启发式图自编码器定向链路预测（Gravity-Inspired Graph Autoencoders for Directed Link Prediction），Guillaume Salha，Stratis Limnios

【CIKM 2019论文】重力启发式图自编码器定向链路预测（Gravity-Inspired Graph Autoencoders for Directed Link Prediction），Guillaume Salha，Stratis Limnios

专知会员服务

28+阅读 · 2019年11月20日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

用Attention玩转CV，一文总览自注意力语义分割进展

用Attention玩转CV，一文总览自注意力语义分割进展

机器之心

14+阅读 · 2019年8月26日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

图分类：结合胶囊网络Capsule和图卷积GCN（附代码）

图分类：结合胶囊网络Capsule和图卷积GCN（附代码）

中国人工智能学会

36+阅读 · 2019年2月26日

【GitHub项目推荐】文本分类最好的几个深度学习方法 TensorFlow 实践

【GitHub项目推荐】文本分类最好的几个深度学习方法 TensorFlow 实践

专知

39+阅读 · 2018年11月27日

深度学习文本分类方法综述（代码）

深度学习文本分类方法综述（代码）

中国人工智能学会

28+阅读 · 2018年6月16日

【论文推荐】最新六篇对抗自编码器相关论文—多尺度网络节点表示、生成对抗自编码、逆映射、Wasserstein、条件对抗、去噪

【论文推荐】最新六篇对抗自编码器相关论文—多尺度网络节点表示、生成对抗自编码、逆映射、Wasserstein、条件对抗、去噪

专知

20+阅读 · 2018年4月7日

【干货】深入理解变分自编码器

【干货】深入理解变分自编码器

专知

21+阅读 · 2018年3月22日

【干货】深入理解自编码器（附代码实现）

【干货】深入理解自编码器（附代码实现）

专知

136+阅读 · 2018年3月9日

【干货】一文读懂什么是变分自编码器

【干货】一文读懂什么是变分自编码器

专知

12+阅读 · 2018年2月11日

多视角识别长非编码RNA和人类复杂疾病关联预测研究

国家自然科学基金

4+阅读 · 2017年12月31日

长链非编码RNA识别及其功能挖掘方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于概率语义分析的多关系图多类标分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

一个功能未知的长链非编码RNA PIK3CD-AS2调控非小细胞肺癌侵袭转移的机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

极化码串行抵消解码算法误码特性研究

国家自然科学基金

0+阅读 · 2015年12月31日

低密度奇偶校验码的误码平层和迭代译码算法的混沌特性分析

国家自然科学基金

0+阅读 · 2015年12月31日

有限域上的代数曲线在纠错码构造中的几点应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于非编码RNA调控网络的复杂疾病致病模式发现研究

国家自然科学基金

1+阅读 · 2015年12月31日

一个长链非编码RNA的鉴定及其调节血管内皮细胞自噬的机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

Mitigating Long-Tail Bias via Prompt-Controlled Diffusion Augmentation

Arxiv

0+阅读 · 2月4日

High-quality data augmentation for code comment classification

Arxiv

0+阅读 · 1月27日

Class Confidence Aware Reweighting for Long Tailed Learning

Arxiv

0+阅读 · 1月22日

Efficient Code Analysis via Graph-Guided Large Language Models

Arxiv

0+阅读 · 1月22日

ComplicaCode: Enhancing Disease Complication Detection in Electronic Health Records through ICD Path Generation

Arxiv

0+阅读 · 1月18日

Algebraic Properties of PAC Codes

Arxiv

0+阅读 · 1月15日

Graph Inference Towards ICD Coding

Arxiv

0+阅读 · 1月12日

AlignSAE: Concept-Aligned Sparse Autoencoders

Arxiv

0+阅读 · 1月10日

Mitigating Long-Tailed Anomaly Score Distributions with Importance-Weighted Loss

Arxiv

0+阅读 · 1月5日

Hybrid-Code: A Privacy-Preserving, Redundant Multi-Agent Framework for Reliable Local Clinical Coding

Arxiv

0+阅读 · 2025年12月26日

VIP会员

文章信息

相关主题

最新内容

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

9+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

5+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

3+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

2+阅读 · 4月20日

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

3+阅读 · 4月20日

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

2+阅读 · 4月20日

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

2+阅读 · 4月20日

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

7+阅读 · 4月20日

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

5+阅读 · 4月20日

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

10+阅读 · 4月20日

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

5+阅读 · 4月20日

《提升生成模型的安全性与保障》博士论文

《提升生成模型的安全性与保障》博士论文

专知会员服务

5+阅读 · 4月20日

美国当前高超音速导弹发展概述

美国当前高超音速导弹发展概述

专知会员服务

4+阅读 · 4月19日

《高超音速武器：一项再度兴起的技术》120页slides

《高超音速武器：一项再度兴起的技术》120页slides

专知会员服务

15+阅读 · 4月19日

无人机蜂群建模与仿真方法

无人机蜂群建模与仿真方法

专知会员服务

14+阅读 · 4月19日

相关VIP内容

【博士论文】无监督深度图聚类中的自适应表示学习，144页pdf

【博士论文】无监督深度图聚类中的自适应表示学习，144页pdf

专知会员服务

43+阅读 · 2023年10月21日

【干货书】代数编码理论导论

【干货书】代数编码理论导论

专知会员服务

44+阅读 · 2023年9月13日

【CVPR2023】魔鬼在查询中:面向真实世界医学图像分割和分布外定位的改进掩模transformer

【CVPR2023】魔鬼在查询中:面向真实世界医学图像分割和分布外定位的改进掩模transformer

专知会员服务

25+阅读 · 2023年4月5日

《分布式多智能体强化学习的编码》加州大学等

《分布式多智能体强化学习的编码》加州大学等

专知会员服务

55+阅读 · 2022年11月2日

港科大最新《深度学习医学图像分割MedISeg》综述论文，21页pdf涵盖212篇文献阐述MedISeg技巧、挑战和未来方向

港科大最新《深度学习医学图像分割MedISeg》综述论文，21页pdf涵盖212篇文献阐述MedISeg技巧、挑战和未来方向

专知会员服务

42+阅读 · 2022年9月22日

【ACL2022】解释生成的多尺度分布深度变分自编码器, Multi-Scale Distribution Deep Variational Autoencoder for Explanation Generation

【ACL2022】解释生成的多尺度分布深度变分自编码器, Multi-Scale Distribution Deep Variational Autoencoder for Explanation Generation

专知会员服务

12+阅读 · 2022年3月24日

【ICCV2021】残差注意力：一种简单但是有效的多标签图像识别方法

专知会员服务

17+阅读 · 2021年8月26日

【KDD2020-清华大学】自适应图编码器，Adaptive Graph Encoder for Attributed Graph Embedding

【KDD2020-清华大学】自适应图编码器，Adaptive Graph Encoder for Attributed Graph Embedding

专知会员服务

99+阅读 · 2020年7月6日

【论文推荐】Short Text Classiﬁcation via Term Graph 基于术语图的短文本分类

【论文推荐】Short Text Classiﬁcation via Term Graph 基于术语图的短文本分类

专知会员服务

20+阅读 · 2020年1月20日

【CIKM 2019论文】重力启发式图自编码器定向链路预测（Gravity-Inspired Graph Autoencoders for Directed Link Prediction），Guillaume Salha，Stratis Limnios

【CIKM 2019论文】重力启发式图自编码器定向链路预测（Gravity-Inspired Graph Autoencoders for Directed Link Prediction），Guillaume Salha，Stratis Limnios

专知会员服务

28+阅读 · 2019年11月20日

热门VIP内容

开通专知VIP会员享更多权益服务

《系统簇式多域作战规划范畴论框架》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

相关资讯

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

用Attention玩转CV，一文总览自注意力语义分割进展

用Attention玩转CV，一文总览自注意力语义分割进展

机器之心

14+阅读 · 2019年8月26日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

图分类：结合胶囊网络Capsule和图卷积GCN（附代码）

图分类：结合胶囊网络Capsule和图卷积GCN（附代码）

中国人工智能学会

36+阅读 · 2019年2月26日

【GitHub项目推荐】文本分类最好的几个深度学习方法 TensorFlow 实践

【GitHub项目推荐】文本分类最好的几个深度学习方法 TensorFlow 实践

专知

39+阅读 · 2018年11月27日

深度学习文本分类方法综述（代码）

深度学习文本分类方法综述（代码）

中国人工智能学会

28+阅读 · 2018年6月16日

【论文推荐】最新六篇对抗自编码器相关论文—多尺度网络节点表示、生成对抗自编码、逆映射、Wasserstein、条件对抗、去噪

【论文推荐】最新六篇对抗自编码器相关论文—多尺度网络节点表示、生成对抗自编码、逆映射、Wasserstein、条件对抗、去噪

专知

20+阅读 · 2018年4月7日

【干货】深入理解变分自编码器

【干货】深入理解变分自编码器

专知

21+阅读 · 2018年3月22日

【干货】深入理解自编码器（附代码实现）

【干货】深入理解自编码器（附代码实现）

专知

136+阅读 · 2018年3月9日

【干货】一文读懂什么是变分自编码器

【干货】一文读懂什么是变分自编码器

专知

12+阅读 · 2018年2月11日

相关论文

Mitigating Long-Tail Bias via Prompt-Controlled Diffusion Augmentation

Arxiv

0+阅读 · 2月4日

High-quality data augmentation for code comment classification

Arxiv

0+阅读 · 1月27日

Class Confidence Aware Reweighting for Long Tailed Learning

Arxiv

0+阅读 · 1月22日

Efficient Code Analysis via Graph-Guided Large Language Models

Arxiv

0+阅读 · 1月22日

ComplicaCode: Enhancing Disease Complication Detection in Electronic Health Records through ICD Path Generation

Arxiv

0+阅读 · 1月18日

Algebraic Properties of PAC Codes

Arxiv

0+阅读 · 1月15日

Graph Inference Towards ICD Coding

Arxiv

0+阅读 · 1月12日

AlignSAE: Concept-Aligned Sparse Autoencoders

Arxiv

0+阅读 · 1月10日

Mitigating Long-Tailed Anomaly Score Distributions with Importance-Weighted Loss

Arxiv

0+阅读 · 1月5日

Hybrid-Code: A Privacy-Preserving, Redundant Multi-Agent Framework for Reliable Local Clinical Coding

Arxiv

0+阅读 · 2025年12月26日

相关基金

多视角识别长非编码RNA和人类复杂疾病关联预测研究

国家自然科学基金

4+阅读 · 2017年12月31日

长链非编码RNA识别及其功能挖掘方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于概率语义分析的多关系图多类标分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

一个功能未知的长链非编码RNA PIK3CD-AS2调控非小细胞肺癌侵袭转移的机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

极化码串行抵消解码算法误码特性研究

国家自然科学基金

0+阅读 · 2015年12月31日

低密度奇偶校验码的误码平层和迭代译码算法的混沌特性分析

国家自然科学基金

0+阅读 · 2015年12月31日

有限域上的代数曲线在纠错码构造中的几点应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于非编码RNA调控网络的复杂疾病致病模式发现研究

国家自然科学基金

1+阅读 · 2015年12月31日

一个长链非编码RNA的鉴定及其调节血管内皮细胞自噬的机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

微信扫码咨询专知VIP会员