Yale-DM-Lab at ArchEHR-QA 2026: Deterministic Grounding and Multi-Pass Evidence Alignment for EHR Question Answering - 专知论文

会员服务 ·

0

Yale-DM-Lab at ArchEHR-QA 2026: Deterministic Grounding and Multi-Pass Evidence Alignment for EHR Question Answering

翻译：耶鲁数据挖掘实验室在ArchEHR-QA 2026评测中的系统：面向电子健康档案问答的确定性归因与多轮证据对齐

Elyas Irankhah,Samah Fodeh

from arxiv, 9 pages, 2 figures. System description for ArchEHR-QA 2026 shared task

We describe the Yale-DM-Lab system for the ArchEHR-QA 2026 shared task. The task studies patient-authored questions about hospitalization records and contains four subtasks (ST): clinician-interpreted question reformulation, evidence sentence identification, answer generation, and evidence-answer alignment. ST1 uses a dual-model pipeline with Claude Sonnet 4 and GPT-4o to reformulate patient questions into clinician-interpreted questions. ST2-ST4 rely on Azure-hosted model ensembles (o3, GPT-5.2, GPT-5.1, and DeepSeek-R1) combined with few-shot prompting and voting strategies. Our experiments show three main findings. First, model diversity and ensemble voting consistently improve performance compared to single-model baselines. Second, the full clinician answer paragraph is provided as additional prompt context for evidence alignment. Third, results on the development set show that alignment accuracy is mainly limited by reasoning. The best scores on the development set reach 88.81 micro F1 on ST4, 65.72 macro F1 on ST2, 34.01 on ST3, and 33.05 on ST1.

翻译：本文介绍了耶鲁数据挖掘实验室为ArchEHR-QA 2026共享任务开发的系统。该任务研究患者撰写的住院记录问题，包含四个子任务：临床医生可理解的问题改写、证据句子识别、答案生成以及证据-答案对齐。子任务1采用双模型流水线，结合Claude Sonnet 4与GPT-4o将患者问题改写为临床医生可理解的问题。子任务2-4则基于Azure托管的模型集成（包括o3、GPT-5.2、GPT-5.1和DeepSeek-R1），结合少样本提示与投票策略。实验表明三项主要发现：第一，相比单一模型基线，模型多样性与集成投票能持续提升性能；第二，完整的临床医生答案段落被作为额外提示上下文用于证据对齐；第三，开发集结果表明对齐准确性主要受限于推理能力。在开发集上取得的最佳成绩分别为：子任务4的88.81微平均F1值、子任务2的65.72宏平均F1值、子任务3的34.01分以及子任务1的33.05分。

0

相关内容

对ARL-TR-9623报告《人机自主协同团队信任工具包（HAT³）软件开发文档与用户指南》的增补材料

对ARL-TR-9623报告《人机自主协同团队信任工具包（HAT³）软件开发文档与用户指南》的增补材料

专知会员服务

13+阅读 · 5月1日

利用表示学习推动多机构电子健康记录数据研究

利用表示学习推动多机构电子健康记录数据研究

专知会员服务

16+阅读 · 2025年2月17日

DARPA能力感知机器学习（CAML）项目《利用概率和抽象的能力感知自主学习(ALPACA)》2023最新30页技术报告

DARPA能力感知机器学习（CAML）项目《利用概率和抽象的能力感知自主学习(ALPACA)》2023最新30页技术报告

专知会员服务

69+阅读 · 2023年6月28日

【巴黎理工博士论文】《面向不规则医疗时间戳数据的基于深度学习的多模态优化方法》2022最新148页博士论文

【巴黎理工博士论文】《面向不规则医疗时间戳数据的基于深度学习的多模态优化方法》2022最新148页博士论文

专知会员服务

35+阅读 · 2022年8月15日

《基于大型知识库进行问答的非参数化上下文推理》2022最新177页博士论文，马萨诸塞大学阿默斯特分校

《基于大型知识库进行问答的非参数化上下文推理》2022最新177页博士论文，马萨诸塞大学阿默斯特分校

专知会员服务

27+阅读 · 2022年8月5日

【军用区块链+复杂系统】《数据信任方法学：基于区块链的军事复杂系统检测》麻省理工林肯实验室

【军用区块链+复杂系统】《数据信任方法学：基于区块链的军事复杂系统检测》麻省理工林肯实验室

专知会员服务

57+阅读 · 2022年6月11日

数据挖掘顶会CIKM2021最佳论文出炉！CWRU图神经网络过度处方获最佳论文！WPI-深度迁移抑郁筛查获最佳应用论文

数据挖掘顶会CIKM2021最佳论文出炉！CWRU图神经网络过度处方获最佳论文！WPI-深度迁移抑郁筛查获最佳应用论文

专知会员服务

32+阅读 · 2021年11月6日

【CIKM2021】基于多关系图的异构多任务学习社区问答

专知会员服务

13+阅读 · 2021年10月6日

【ACL2020-浙大-微软】多轮对话推理数据集，MuTual: A Dataset for Multi-Turn Dialogue Reasoning

【ACL2020-浙大-微软】多轮对话推理数据集，MuTual: A Dataset for Multi-Turn Dialogue Reasoning

专知会员服务

38+阅读 · 2020年4月10日

【ACL 2019 Tutorials】论据挖掘研究进展（Advances in Argument Mining）

【ACL 2019 Tutorials】论据挖掘研究进展（Advances in Argument Mining）

专知会员服务

16+阅读 · 2019年11月18日

斯坦福CS246《大数据挖掘》2022课程开始了！Jure Leskovec大牛主讲，附课程PPT下载

斯坦福CS246《大数据挖掘》2022课程开始了！Jure Leskovec大牛主讲，附课程PPT下载

专知

10+阅读 · 2022年3月9日

AB实验在滴滴数据驱动中的应用

AB实验在滴滴数据驱动中的应用

DataFunTalk

15+阅读 · 2020年5月31日

论文浅尝 | 基于用户反馈的交互式自然语言回答系统提升机制

论文浅尝 | 基于用户反馈的交互式自然语言回答系统提升机制

开放知识图谱

20+阅读 · 2019年10月12日

综述：Image Caption 任务之语句多样性

综述：Image Caption 任务之语句多样性

PaperWeekly

22+阅读 · 2018年11月30日

R语言数据挖掘利器：Rattle包

R语言数据挖掘利器：Rattle包

R语言中文社区

21+阅读 · 2018年11月17日

干货|85页最新《人机对话系统》神经方法综述论文，微软与谷歌研究员联合出品：

干货|85页最新《人机对话系统》神经方法综述论文，微软与谷歌研究员联合出品：

专知

35+阅读 · 2018年10月7日

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

专知

29+阅读 · 2018年9月27日

阿里健康夺冠中文电子病历实体识别评测任务

阿里健康夺冠中文电子病历实体识别评测任务

AI掘金志

40+阅读 · 2018年8月17日

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

专知

23+阅读 · 2018年6月17日

论文动态 | 基于知识图谱的问答系统关键技术研究 #02

论文动态 | 基于知识图谱的问答系统关键技术研究 #02

开放知识图谱

10+阅读 · 2017年8月6日

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

复杂系统中多密码算法密钥协同安全研究

国家自然科学基金

0+阅读 · 2015年12月31日

满足差分隐私的频繁模式挖掘研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于缺失数据分析和信息几何理论的SAR图像自动目标识别研究

国家自然科学基金

3+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

基于稳健估计方程的复杂纵向数据研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据跨媒体检索的多模态哈希学习方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向健康管理数据的关联型知识深度挖掘方法研究

国家自然科学基金

12+阅读 · 2015年12月31日

流程监控与评估中多元数据整合研究

国家自然科学基金

1+阅读 · 2014年12月31日

多元数据与函数型数据的序贯检验方法与控制图研究

国家自然科学基金

0+阅读 · 2014年12月31日

H-RAG at SemEval-2026 Task 8: Hierarchical Parent-Child Retrieval for Multi-Turn RAG Conversations

Arxiv

0+阅读 · 5月1日

HealthNLP_Retrievers at ArchEHR-QA 2026: Cascaded LLM Pipeline for Grounded Clinical Question Answering

Arxiv

0+阅读 · 4月29日

CQA-Eval: Designing Reliable Evaluations of Multi-paragraph Clinical QA under Resource Constraints

Arxiv

0+阅读 · 4月3日

Eligibility-Aware Evidence Synthesis: An Agentic Framework for Clinical Trial Meta-Analysis

Arxiv

0+阅读 · 4月3日

HERBench: A Benchmark for Multi-Evidence Integration in Video Question Answering

Arxiv

0+阅读 · 4月2日

From Questions to Trust Reports: A LLM-IR Framework for the TREC 2025 DRAGUN Track

Arxiv

0+阅读 · 3月24日

Ara-Best-RQ: Multi Dialectal Arabic SSL

Arxiv

0+阅读 · 3月23日

ARIADNE: A Perception-Reasoning Synergy Framework for Trustworthy Coronary Angiography Analysis

Arxiv

0+阅读 · 3月19日

QualitEye: Public and Privacy-preserving Gaze Data Quality Verification

Arxiv

0+阅读 · 3月19日

ResearchPilot: A Local-First Multi-Agent System for Literature Synthesis and Related Work Drafting

Arxiv

0+阅读 · 3月15日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

3+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

对ARL-TR-9623报告《人机自主协同团队信任工具包（HAT³）软件开发文档与用户指南》的增补材料

对ARL-TR-9623报告《人机自主协同团队信任工具包（HAT³）软件开发文档与用户指南》的增补材料

专知会员服务

13+阅读 · 5月1日

利用表示学习推动多机构电子健康记录数据研究

利用表示学习推动多机构电子健康记录数据研究

专知会员服务

16+阅读 · 2025年2月17日

DARPA能力感知机器学习（CAML）项目《利用概率和抽象的能力感知自主学习(ALPACA)》2023最新30页技术报告

DARPA能力感知机器学习（CAML）项目《利用概率和抽象的能力感知自主学习(ALPACA)》2023最新30页技术报告

专知会员服务

69+阅读 · 2023年6月28日

【巴黎理工博士论文】《面向不规则医疗时间戳数据的基于深度学习的多模态优化方法》2022最新148页博士论文

【巴黎理工博士论文】《面向不规则医疗时间戳数据的基于深度学习的多模态优化方法》2022最新148页博士论文

专知会员服务

35+阅读 · 2022年8月15日

《基于大型知识库进行问答的非参数化上下文推理》2022最新177页博士论文，马萨诸塞大学阿默斯特分校

《基于大型知识库进行问答的非参数化上下文推理》2022最新177页博士论文，马萨诸塞大学阿默斯特分校

专知会员服务

27+阅读 · 2022年8月5日

【军用区块链+复杂系统】《数据信任方法学：基于区块链的军事复杂系统检测》麻省理工林肯实验室

【军用区块链+复杂系统】《数据信任方法学：基于区块链的军事复杂系统检测》麻省理工林肯实验室

专知会员服务

57+阅读 · 2022年6月11日

数据挖掘顶会CIKM2021最佳论文出炉！CWRU图神经网络过度处方获最佳论文！WPI-深度迁移抑郁筛查获最佳应用论文

数据挖掘顶会CIKM2021最佳论文出炉！CWRU图神经网络过度处方获最佳论文！WPI-深度迁移抑郁筛查获最佳应用论文

专知会员服务

32+阅读 · 2021年11月6日

【CIKM2021】基于多关系图的异构多任务学习社区问答

专知会员服务

13+阅读 · 2021年10月6日

【ACL2020-浙大-微软】多轮对话推理数据集，MuTual: A Dataset for Multi-Turn Dialogue Reasoning

【ACL2020-浙大-微软】多轮对话推理数据集，MuTual: A Dataset for Multi-Turn Dialogue Reasoning

专知会员服务

38+阅读 · 2020年4月10日

【ACL 2019 Tutorials】论据挖掘研究进展（Advances in Argument Mining）

【ACL 2019 Tutorials】论据挖掘研究进展（Advances in Argument Mining）

专知会员服务

16+阅读 · 2019年11月18日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

斯坦福CS246《大数据挖掘》2022课程开始了！Jure Leskovec大牛主讲，附课程PPT下载

斯坦福CS246《大数据挖掘》2022课程开始了！Jure Leskovec大牛主讲，附课程PPT下载

专知

10+阅读 · 2022年3月9日

AB实验在滴滴数据驱动中的应用

AB实验在滴滴数据驱动中的应用

DataFunTalk

15+阅读 · 2020年5月31日

论文浅尝 | 基于用户反馈的交互式自然语言回答系统提升机制

论文浅尝 | 基于用户反馈的交互式自然语言回答系统提升机制

开放知识图谱

20+阅读 · 2019年10月12日

综述：Image Caption 任务之语句多样性

综述：Image Caption 任务之语句多样性

PaperWeekly

22+阅读 · 2018年11月30日

R语言数据挖掘利器：Rattle包

R语言数据挖掘利器：Rattle包

R语言中文社区

21+阅读 · 2018年11月17日

干货|85页最新《人机对话系统》神经方法综述论文，微软与谷歌研究员联合出品：

干货|85页最新《人机对话系统》神经方法综述论文，微软与谷歌研究员联合出品：

专知

35+阅读 · 2018年10月7日

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

专知

29+阅读 · 2018年9月27日

阿里健康夺冠中文电子病历实体识别评测任务

阿里健康夺冠中文电子病历实体识别评测任务

AI掘金志

40+阅读 · 2018年8月17日

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

专知

23+阅读 · 2018年6月17日

论文动态 | 基于知识图谱的问答系统关键技术研究 #02

论文动态 | 基于知识图谱的问答系统关键技术研究 #02

开放知识图谱

10+阅读 · 2017年8月6日

相关论文

H-RAG at SemEval-2026 Task 8: Hierarchical Parent-Child Retrieval for Multi-Turn RAG Conversations

Arxiv

0+阅读 · 5月1日

HealthNLP_Retrievers at ArchEHR-QA 2026: Cascaded LLM Pipeline for Grounded Clinical Question Answering

Arxiv

0+阅读 · 4月29日

CQA-Eval: Designing Reliable Evaluations of Multi-paragraph Clinical QA under Resource Constraints

Arxiv

0+阅读 · 4月3日

Eligibility-Aware Evidence Synthesis: An Agentic Framework for Clinical Trial Meta-Analysis

Arxiv

0+阅读 · 4月3日

HERBench: A Benchmark for Multi-Evidence Integration in Video Question Answering

Arxiv

0+阅读 · 4月2日

From Questions to Trust Reports: A LLM-IR Framework for the TREC 2025 DRAGUN Track

Arxiv

0+阅读 · 3月24日

Ara-Best-RQ: Multi Dialectal Arabic SSL

Arxiv

0+阅读 · 3月23日

ARIADNE: A Perception-Reasoning Synergy Framework for Trustworthy Coronary Angiography Analysis

Arxiv

0+阅读 · 3月19日

QualitEye: Public and Privacy-preserving Gaze Data Quality Verification

Arxiv

0+阅读 · 3月19日

ResearchPilot: A Local-First Multi-Agent System for Literature Synthesis and Related Work Drafting

Arxiv

0+阅读 · 3月15日

相关基金

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

复杂系统中多密码算法密钥协同安全研究

国家自然科学基金

0+阅读 · 2015年12月31日

满足差分隐私的频繁模式挖掘研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于缺失数据分析和信息几何理论的SAR图像自动目标识别研究

国家自然科学基金

3+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

基于稳健估计方程的复杂纵向数据研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据跨媒体检索的多模态哈希学习方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向健康管理数据的关联型知识深度挖掘方法研究

国家自然科学基金

12+阅读 · 2015年12月31日

流程监控与评估中多元数据整合研究

国家自然科学基金

1+阅读 · 2014年12月31日

多元数据与函数型数据的序贯检验方法与控制图研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员