Electronic Patient Record (EPR) systems contain valuable clinical information, but much of it is trapped in unstructured text, limiting its use for research and decision-making. Large language models can extract such information but require substantial computational resources to run locally, and sending sensitive clinical data to cloud-based services, even when deidentified, raises significant patient privacy concerns. In this study, we develop a resource-efficient semi-automated annotation workflow using small language models (SLMs) to extract structured information from unstructured EPR data, focusing on paediatric histopathology reports. As a proof-of-concept, we apply the workflow to paediatric renal biopsy reports, a domain chosen for its constrained diagnostic scope and well-defined underlying biology. We develop the workflow iteratively with clinical oversight across three meetings, manually annotating 400 reports from a dataset of 2,111 at Great Ormond Street Hospital as a gold standard, while developing an automated information extraction approach using SLMs. We frame extraction as a Question-Answering task grounded by clinician-guided entity guidelines and few-shot examples, evaluating five instruction-tuned SLMs with a disagreement modelling framework to prioritise reports for clinical review. Gemma 2 2B achieves the highest accuracy at 84.3%, outperforming off-the-shelf models including spaCy (74.3%), BioBERT-SQuAD (62.3%), RoBERTa-SQuAD (59.7%), and GLiNER (60.2%). Entity guidelines improved performance by 7-19% over the zero-shot baseline, and few-shot examples by 6-38%, though their benefits do not compound when combined. These results demonstrate that SLMs can extract structured information from specialised clinical domains on CPU-only infrastructure with minimal clinician involvement. Our code is available at https://github.com/gosh-dre/nlp_renal_biopsy.


翻译:电子病历(EPR)系统包含大量有价值的临床信息,但这些信息大多被锁定在非结构化文本中,限制了其在研究及决策中的应用。大型语言模型虽能提取此类信息,但本地运行时需巨额计算资源,而将敏感临床数据(即使经过去标识化处理)传输至云端服务会引发严重的患者隐私担忧。本研究针对儿科组织病理学报告,开发了一种资源高效的半自动化注释工作流,利用小型语言模型(SLMs)从非结构化EPR数据中提取结构化信息。作为概念验证,我们将其应用于儿科肾活检报告——该领域因诊断范围有限且潜在病理机制明确而获选。通过三场临床监督会议迭代优化工作流,从大奥蒙德街医院2111份报告中人工标注400份作为金标准,同时基于SLMs开发自动化信息提取方法。我们将提取任务建模为问答任务,基于临床指导的实体指南与少样本示例,采用分歧建模框架评估五种指令微调SLM,以优先筛选需临床复核的报告。其中Gemma 2 2B准确率最高达84.3%,优于spaCy(74.3%)、BioBERT-SQuAD(62.3%)、RoBERTa-SQuAD(59.7%)和GLiNER(60.2%)等现成模型。与零样本基准相比,实体指南使性能提升7–19%,少样本示例提升6–38%,但二者组合时并未产生叠加效应。这些结果表明,SLM能在仅依赖CPU的基础设施上,以最少的临床参与从专业临床领域提取结构化信息。我们的代码已开源:https://github.com/gosh-dre/nlp_renal_biopsy

0
下载
关闭预览

相关内容

【博士论文】优化智能体工作流以提升信息获取效率
专知会员服务
19+阅读 · 2025年7月7日
利用表示学习推动多机构电子健康记录数据研究
专知会员服务
16+阅读 · 2025年2月17日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
「中文电子病历命名实体识别」的研究与进展
专知会员服务
30+阅读 · 2022年11月5日
专知会员服务
39+阅读 · 2021年5月14日
半监督学习加速AI产业数据标注
QCon
13+阅读 · 2019年4月2日
医疗中的自动机器学习和可解释性
专知
24+阅读 · 2019年4月1日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
1+阅读 · 38分钟前
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
3+阅读 · 53分钟前
基于声学的无人机检测技术综述
专知会员服务
3+阅读 · 今天13:37
《当代混合战争分析框架:俄乌战争经验教训》
专知会员服务
3+阅读 · 今天13:11
战略前沿人工智能的再思考(中文)
专知会员服务
7+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
5+阅读 · 5月29日
“史诗怒火行动”中美军损失的作战飞机
专知会员服务
6+阅读 · 5月29日
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
5+阅读 · 5月28日
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员