This study applies Large Language Models (LLMs) to two foundational Electronic Health Record (EHR) data science tasks: structured data querying (using programmatic languages, Python/Pandas) and information extraction from unstructured clinical text via a Retrieval Augmented Generation (RAG) pipeline. We test the ability of LLMs to interact accurately with large structured datasets for analytics and the reliability of LLMs in extracting semantically correct information from free text health records when supported by RAG. To this end, we presented a flexible evaluation framework that automatically generates synthetic question and answer pairs tailored to the characteristics of each dataset or task. Experiments were conducted on a curated subset of MIMIC III, (four structured tables and one clinical note type), using a mix of locally hosted and API-based LLMs. Evaluation combined exact-match metrics, semantic similarity, and human judgment. Our findings demonstrate the potential of LLMs to support precise querying and accurate information extraction in clinical workflows.


翻译:本研究将大型语言模型应用于两项基础的电子健康记录数据科学任务:结构化数据查询(使用编程语言Python/Pandas)以及通过检索增强生成管道从非结构化临床文本中提取信息。我们测试了LLMs在分析大型结构化数据集时进行准确交互的能力,以及在RAG支持下从自由文本健康记录中提取语义正确信息的可靠性。为此,我们提出了一个灵活的评估框架,能够根据每个数据集或任务的特征自动生成定制的合成问答对。实验在精选的MIMIC III子集(四个结构化表格和一种临床记录类型)上进行,使用了本地部署和基于API的LLMs混合方案。评估结合了精确匹配指标、语义相似度和人工判断。我们的研究结果证明了LLMs在支持临床工作流程中实现精准查询和准确信息提取方面的潜力。

0
下载
关闭预览

相关内容

大型语言模型在生物信息学中的应用综述
专知会员服务
16+阅读 · 2025年3月15日
《使用生成式大语言模型进行多语言事件提取》最新85页
定制化大型语言模型的图检索增强生成综述
专知会员服务
38+阅读 · 2025年1月28日
《大语言模型的数据合成与增强综述》
专知会员服务
43+阅读 · 2024年10月19日
大语言模型增强知识表示学习综述
专知会员服务
69+阅读 · 2024年7月2日
KnowledGPT:基于知识库的检索和存储访问增强大型语言模型
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
VIP会员
最新内容
探秘Palantir:驱动美情报的科技巨头
专知会员服务
2+阅读 · 今天3:14
《美国海军军事海运司令部 2026年手册》
专知会员服务
2+阅读 · 今天3:05
《人工智能使能系统可靠性框架》
专知会员服务
5+阅读 · 今天2:28
2026“人工智能+”行业发展蓝皮书(附下载)
专知会员服务
14+阅读 · 4月26日
《强化学习数学基础》
专知会员服务
12+阅读 · 4月26日
“Maven计划”的发展演变之“Maven智能系统”应用
相关VIP内容
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员