Extracting insights from Electronic Health Record (EHR) databases often requires SQL expertise, creating a barrier for healthcare decision-making and research. While a promising approach is to use Large Language Models (LLMs) to translate natural language questions to SQL via Retrieval-Augmented Generation (RAG), adapting this approach to the medical domain is non-trivial. Standard RAG relies on single-step retrieval from a static pool of examples, which struggles with the variability and noise of medical terminology and jargon. This often leads to anti-patterns such as expanding the task demonstration pool to improve coverage, which in turn introduces noise and scalability problems. To address this, we introduce CBR-to-SQL, a framework inspired by Case-Based Reasoning (CBR). It represents question-SQL pairs as reusable, abstract case templates and utilizes a two-stage retrieval process that first captures logical structure and then resolves relevant entities. Evaluated on MIMICSQL, CBR-to-SQL achieves state-of-the-art logical form accuracy and competitive execution accuracy. More importantly, it demonstrates higher sample efficiency and robustness than standard RAG approaches, particularly under data scarcity and retrieval perturbations.


翻译:从电子健康记录(EHR)数据库中提取洞察通常需要SQL专业知识,这为医疗决策和研究设置了障碍。虽然利用大型语言模型(LLMs)通过检索增强生成(RAG)将自然语言问题转换为SQL是一种前景广阔的方法,但将其应用于医疗领域并非易事。标准RAG依赖于从静态示例池中进行单步检索,难以应对医学术语和行话的多样性与噪声。这常常导致反模式,例如扩大任务演示池以提高覆盖率,而这又会引入噪声和可扩展性问题。为解决此问题,我们提出了CBR-to-SQL,一个受案例推理(CBR)启发的框架。它将问题-SQL对表示为可重用的抽象案例模板,并采用两阶段检索过程:首先捕获逻辑结构,然后解析相关实体。在MIMICSQL上的评估表明,CBR-to-SQL实现了最先进的逻辑形式准确率和具有竞争力的执行准确率。更重要的是,与标准RAG方法相比,它展现出更高的样本效率和鲁棒性,尤其是在数据稀缺和检索扰动的情况下。

0
下载
关闭预览

相关内容

SQL 全名是结构化查询语言,是用于数据库中的标准数据查询语言,IBM 公司最早使用在其开发的数据库系统中。
利用表示学习推动多机构电子健康记录数据研究
专知会员服务
16+阅读 · 2025年2月17日
定制化大型语言模型的图检索增强生成综述
专知会员服务
38+阅读 · 2025年1月28日
《大型语言模型中基于检索的文本生成》综述
专知会员服务
60+阅读 · 2024年4月18日
医疗健康领域的短文本解析探索----文本纠错
深度学习自然语言处理
10+阅读 · 2020年8月5日
使用BERT做文本摘要
专知
23+阅读 · 2019年12月7日
用深度学习做文本摘要
专知
24+阅读 · 2019年3月30日
干货|当深度学习遇见自动文本摘要,seq2seq+attention
机器学习算法与Python学习
10+阅读 · 2018年5月28日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
VIP会员
最新内容
《系统簇式多域作战规划范畴论框架》
专知会员服务
5+阅读 · 4月20日
高效视频扩散模型:进展与挑战
专知会员服务
2+阅读 · 4月20日
乌克兰前线的五项创新
专知会员服务
7+阅读 · 4月20日
 军事通信系统与设备的技术演进综述
专知会员服务
5+阅读 · 4月20日
《北约标准:医疗评估手册》174页
专知会员服务
5+阅读 · 4月20日
《提升生成模型的安全性与保障》博士论文
专知会员服务
5+阅读 · 4月20日
美国当前高超音速导弹发展概述
专知会员服务
4+阅读 · 4月19日
无人机蜂群建模与仿真方法
专知会员服务
14+阅读 · 4月19日
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员