Electronic Patient Record (EPR) systems contain valuable clinical information, but much of it is trapped in unstructured text, limiting its use for research and decision-making. Large language models can extract such information but require substantial computational resources to run locally, and sending sensitive clinical data to cloud-based services, even when deidentified, raises significant patient privacy concerns. In this study, we develop a resource-efficient semi-automated annotation workflow using small language models (SLMs) to extract structured information from unstructured EPR data, focusing on paediatric histopathology reports. As a proof-of-concept, we apply the workflow to paediatric renal biopsy reports, a domain chosen for its constrained diagnostic scope and well-defined underlying biology. We develop the workflow iteratively with clinical oversight across three meetings, manually annotating 400 reports from a dataset of 2,111 at Great Ormond Street Hospital as a gold standard, while developing an automated information extraction approach using SLMs. We frame extraction as a Question-Answering task grounded by clinician-guided entity guidelines and few-shot examples, evaluating five instruction-tuned SLMs with a disagreement modelling framework to prioritise reports for clinical review. Gemma 2 2B achieves the highest accuracy at 84.3%, outperforming off-the-shelf models including spaCy (74.3%), BioBERT-SQuAD (62.3%), RoBERTa-SQuAD (59.7%), and GLiNER (60.2%). Entity guidelines improved performance by 7-19% over the zero-shot baseline, and few-shot examples by 6-38%, though their benefits do not compound when combined. These results demonstrate that SLMs can extract structured information from specialised clinical domains on CPU-only infrastructure with minimal clinician involvement. Our code is available at https://github.com/gosh-dre/nlp_renal_biopsy.


翻译:电子病历系统中包含大量有价值的临床信息,但这些信息大多以非结构化文本形式存在,限制了其在科研与临床决策中的应用。大型语言模型虽能提取此类信息,但本地运行需要大量计算资源,而将敏感临床数据发送至云端服务(即使经过脱敏处理)会引发重大患者隐私问题。本研究开发了一种资源高效的半自动标注流程,利用小型语言模型从非结构化电子病历数据中提取结构化信息,聚焦于儿童组织病理学报告。作为概念验证,我们将该流程应用于儿童肾活检报告——该领域因诊断范围明确且生物学基础清晰而入选。我们通过三次临床督导研讨会迭代开发该流程,以伦敦大奥蒙德街医院2111份报告数据集中人工标注的400份报告作为金标准,同时基于小型语言模型构建自动化信息提取方法。我们将提取任务建模为临床医师指导实体准则与少样本示例驱动的问答任务,通过分歧建模框架评估五种指令微调后的小型语言模型,以优先筛选需临床复核的报告。数据显示,Gemma 2 2B模型以84.3%的准确率最优,其性能显著优于包括spaCy(74.3%)、BioBERT-SQuAD(62.3%)、RoBERTa-SQuAD(59.7%)和GLiNER(60.2%)在内的现成模型。实体准则使性能较零样本基线提升7-19%,少样本示例提升6-38%,但二者组合时效果不叠加。研究结果表明,小型语言模型可通过仅依赖CPU的底层设施实现临床专业领域结构化信息提取,且仅需最低程度的临床专家参与。相关代码已开源:https://github.com/gosh-dre/nlp_renal_biopsy。

0
下载
关闭预览

相关内容

医学领域大型语言模型的新进展
专知会员服务
25+阅读 · 2025年10月5日
大型语言模型疾病诊断综述
专知会员服务
32+阅读 · 2024年9月21日
一文速览大语言模型提示最新进展
专知会员服务
80+阅读 · 2023年12月24日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
专知会员服务
39+阅读 · 2021年5月14日
专知会员服务
73+阅读 · 2021年3月27日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
机器学习自动文本分类
AI前线
23+阅读 · 2018年2月4日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
VIP会员
最新内容
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
1+阅读 · 48分钟前
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
4+阅读 · 今天13:49
基于声学的无人机检测技术综述
专知会员服务
3+阅读 · 今天13:37
《当代混合战争分析框架:俄乌战争经验教训》
专知会员服务
4+阅读 · 今天13:11
战略前沿人工智能的再思考(中文)
专知会员服务
7+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
5+阅读 · 5月29日
“史诗怒火行动”中美军损失的作战飞机
专知会员服务
6+阅读 · 5月29日
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
5+阅读 · 5月28日
相关VIP内容
医学领域大型语言模型的新进展
专知会员服务
25+阅读 · 2025年10月5日
大型语言模型疾病诊断综述
专知会员服务
32+阅读 · 2024年9月21日
一文速览大语言模型提示最新进展
专知会员服务
80+阅读 · 2023年12月24日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
专知会员服务
39+阅读 · 2021年5月14日
专知会员服务
73+阅读 · 2021年3月27日
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员