Patient portals now give individuals direct access to their electronic health records (EHRs), yet access alone does not ensure patients understand or act on the complex clinical information contained in these records. The ArchEHR-QA 2026 shared task addresses this challenge by focusing on grounded question answering over EHRs, and this paper presents the system developed by the HealthNLP_Retrievers team for this task. The proposed approach uses a multi-stage cascaded pipeline powered by the Gemini 2.5 Pro large language model to interpret patient-authored questions and retrieve relevant evidence from lengthy clinical notes. Our architecture comprises four integrated modules: (1) a few-shot query reformulation unit which summarizes verbose patient queries; (2) a heuristic-based evidence scorer which ranks clinical sentences to prioritize recall; (3) a grounded response generator which synthesizes professional-caliber answers restricted strictly to identified evidence; and (4) a high-precision many-to-many alignment framework which links generated answers to supporting clinical sentences. This cascaded approach achieved competitive results. Across the individual tracks, the system ranked 1st in question interpretation, 5th in answer generation, 7th in evidence identification, and 9th in answer-evidence alignment. These results show that integrating large language models within a structured multi-stage pipeline improves grounding, precision, and the professional quality of patient-oriented health communication. To support reproducibility, our source code is publicly available in our GitHub repository


翻译:摘要:患者门户网站现使个人能够直接访问其电子健康记录(EHRs),但仅有访问权限并不能确保患者理解或依据其中复杂的临床信息采取行动。ArchEHR-QA 2026 共享任务通过聚焦于基于证据的EHR问答来应对这一挑战,本文介绍了HealthNLP_Retrievers团队为此任务开发的系统。所提出的方法采用由Gemini 2.5 Pro大型语言模型驱动的多阶段级联流水线,用于解读患者提出的问题并从冗长的临床笔记中检索相关证据。我们的架构包含四个集成模块:(1)少样本查询重组单元,用于总结冗长的患者查询;(2)基于启发式的证据评分器,对临床句子进行排序以优先确保召回率;(3)基于证据的响应生成器,综合生成仅严格限于已识别证据的专业级回答;(4)高精度多对多对齐框架,将生成的回答与支持性临床句子相链接。这种级联方法取得了具有竞争力的结果。在各独立赛道中,该系统在问题解读中排名第一,在答案生成中排名第五,在证据识别中排名第七,在答案-证据对齐中排名第九。这些结果表明,将大语言模型整合到结构化的多阶段流水线中,可提升以患者为导向的健康沟通的基础性、精准度及专业质量。为支持可复现性,我们的源代码已在GitHub仓库中公开。

0
下载
关闭预览

相关内容

利用表示学习推动多机构电子健康记录数据研究
专知会员服务
16+阅读 · 2025年2月17日
「中文电子病历命名实体识别」的研究与进展
专知会员服务
30+阅读 · 2022年11月5日
专知会员服务
39+阅读 · 2021年5月14日
专知会员服务
52+阅读 · 2021年3月28日
【NER综述】近五年中文电子病历命名实体识别研究进展
深度学习自然语言处理
12+阅读 · 2020年8月24日
医疗健康领域的短文本解析探索----文本纠错
深度学习自然语言处理
10+阅读 · 2020年8月5日
阿里健康夺冠中文电子病历实体识别评测任务
AI掘金志
40+阅读 · 2018年8月17日
NLP专题论文解读:从Chatbot、NER到QA系统...
数据派THU
27+阅读 · 2017年11月12日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
5+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
利用表示学习推动多机构电子健康记录数据研究
专知会员服务
16+阅读 · 2025年2月17日
「中文电子病历命名实体识别」的研究与进展
专知会员服务
30+阅读 · 2022年11月5日
专知会员服务
39+阅读 · 2021年5月14日
专知会员服务
52+阅读 · 2021年3月28日
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员