Automated International Classification of Diseases (ICD) coding is a core medical-coding task for billing, epidemiology, and clinical decision support. Generative large language models (LLMs) are often reported as weak medical coders, but this finding mainly comes from inference-time settings such as prompting, retrieval, reranking, or tool use, leaving the role of task-specific post-training underexplored. We present a controlled empirical study of post-training for generative ICD coding, comparing discriminative baselines with LLM coders across prompting, supervised fine-tuning, and reinforcement learning under a common protocol and metric set. To our knowledge, this is the first study to evaluate RL-based post-training for generative LLM coders in ICD coding. We further introduce PHI, a diagnostic curriculum that extends GRPO to refine missed-code cases. Our results show that prompting-only evaluation substantially underestimates the potential of LLMs for ICD coding. SFT provides the main capability jump, GRPO further improves code-set prediction beyond SFT, and PHI provides targeted gains on macro-level performance. These findings suggest that the main bottleneck is not the generative formulation alone, but how the model is adapted and optimized for full-taxonomy recall. We release our code, data splits, and checkpoints at https://github.com/AlexandreWANG915/LLM4ICD.


翻译:国际疾病分类(ICD)的自动编码是医疗计费、流行病学和临床决策支持中的核心医学编码任务。生成式大语言模型(LLMs)常被认为在医学编码方面表现欠佳,但这一结论主要来源于推理阶段的设置(如提示工程、检索、重排序或工具使用),而任务特定的后训练作用尚未得到充分探索。我们针对生成式ICD编码的后训练开展了一项受控实证研究,在统一协议和指标集下,对比了判别式基线模型与基于提示工程、监督微调及强化学习的LLM编码器。据我们所知,这是首个在ICD编码中评估基于强化学习的后训练对生成式LLM编码器效果的研究。我们还提出了PHI——一种诊断性课程策略,它扩展了GRPO以优化遗漏编码案例。结果表明,仅基于提示工程的评估会显著低估LLM在ICD编码中的潜力。监督微调带来了主要的能力跃升,GRPO在监督微调基础上进一步提升了编码集预测性能,而PHI则在宏观性能上实现了针对性改进。这些发现表明,主要瓶颈并非生成式范式本身,而是如何针对完整分类体系的召回率对模型进行适配和优化。我们在https://github.com/AlexandreWANG915/LLM4ICD 上开源了代码、数据划分和检查点。

0
下载
关闭预览

相关内容

什么是后训练?大语言模型训练后优化方法综述,87页pdf
大型语言模型疾病诊断综述
专知会员服务
32+阅读 · 2024年9月21日
《大型语言模型代码生成》综述
专知会员服务
70+阅读 · 2024年6月4日
医疗中的自动机器学习和可解释性
专知
24+阅读 · 2019年4月1日
【AAAI专题】论文分享:以生物可塑性为核心的类脑脉冲神经网络
中国科学院自动化研究所
15+阅读 · 2018年1月23日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员