Decomposing Physician Disagreement in HealthBench - 专知论文

会员服务 ·

0

不确定 · 不确定性 · 分解 · 方差 · AUC ·

Decomposing Physician Disagreement in HealthBench

翻译：分解HealthBench中的医生分歧

Satya Borgohain,Roy Mariathas

We decompose physician disagreement in the HealthBench medical AI evaluation dataset to understand where variance resides and what observable features can explain it. Rubric identity accounts for 15.8% of met/not-met label variance but only 3.6-6.9% of disagreement variance; physician identity accounts for just 2.4%. The dominant 81.8% case-level residual is not reduced by HealthBench's metadata labels (z = -0.22, p = 0.83), normative rubric language (pseudo R^2 = 1.2%), medical specialty (0/300 Tukey pairs significant), surface-feature triage (AUC = 0.58), or embeddings (AUC = 0.485). Disagreement follows an inverted-U with completion quality (AUC = 0.689), confirming physicians agree on clearly good or bad outputs but split on borderline cases. Physician-validated uncertainty categories reveal that reducible uncertainty (missing context, ambiguous phrasing) more than doubles disagreement odds (OR = 2.55, p < 10^(-24)), while irreducible uncertainty (genuine medical ambiguity) has no effect (OR = 1.01, p = 0.90), though even the former explains only ~3% of total variance. The agreement ceiling in medical AI evaluation is thus largely structural, but the reducible/irreducible dissociation suggests that closing information gaps in evaluation scenarios could lower disagreement where inherent clinical ambiguity does not, pointing toward actionable evaluation design improvements.

翻译：我们对HealthBench医疗AI评估数据集中的医生分歧进行分解，以理解差异的来源及其可解释性特征。评分标准身份解释了15.8%的"符合/不符合"标签方差，但仅解释3.6-6.9%的分歧方差；医生身份仅解释2.4%。占主导地位的81.8%病例级残差无法通过HealthBench的元数据标签（z = -0.22, p = 0.83）、规范性评分标准语言（伪R^2 = 1.2%）、医学专业（300组Tukey检验均不显著）、表面特征分诊（AUC = 0.58）或嵌入表示（AUC = 0.485）来降低。分歧与完成质量呈倒U型关系（AUC = 0.689），证实医生对明显优劣的输出意见一致，但对临界病例存在分歧。经医生验证的不确定性分类显示：可减少的不确定性（缺失上下文、模糊表述）使分歧几率增加超过两倍（OR = 2.55, p < 10^(-24)），而不可减少的不确定性（真实医学模糊性）无显著影响（OR = 1.01, p = 0.90），但即使前者也仅解释约3%的总方差。因此医疗AI评估中的一致性上限主要源于结构性因素，但可减少/不可减少不确定性的解离表明：在评估场景中填补信息缺口可降低非临床固有模糊性引起的分歧，这为可操作的评估设计改进指明了方向。

0

相关内容

不确定

港科大最新《深度学习医学图像分割MedISeg》综述论文，21页pdf涵盖212篇文献阐述MedISeg技巧、挑战和未来方向

港科大最新《深度学习医学图像分割MedISeg》综述论文，21页pdf涵盖212篇文献阐述MedISeg技巧、挑战和未来方向

专知会员服务

42+阅读 · 2022年9月22日

【MIT博士论文】异构医疗数据表示学习，193页pdf

【MIT博士论文】异构医疗数据表示学习，193页pdf

专知会员服务

61+阅读 · 2022年9月3日

《用于医疗数据的分析和机器学习》佐治亚理工学院137页博士论文

《用于医疗数据的分析和机器学习》佐治亚理工学院137页博士论文

专知会员服务

26+阅读 · 2022年7月21日

MIT最新论文《对可解释特征的需求：动机和分类》：在机器学习模型的组成元素中建立可解释性

MIT最新论文《对可解释特征的需求：动机和分类》：在机器学习模型的组成元素中建立可解释性

专知会员服务

25+阅读 · 2022年6月30日

医学诊断如何可解释？贝拉内大学最新《医学诊断中可解释深度学习方法》综述，36页pdf153篇文献概述最新XAI医学诊断进展

医学诊断如何可解释？贝拉内大学最新《医学诊断中可解释深度学习方法》综述，36页pdf153篇文献概述最新XAI医学诊断进展

专知会员服务

92+阅读 · 2022年5月14日

【PKDD2021】医疗健康中的公平机器学习:实用指南，142页ppt

专知会员服务

30+阅读 · 2021年6月9日

基于图深度学习的医疗诊断与分析：过去，现在与未来

专知会员服务

68+阅读 · 2021年6月3日

剑桥大学《人工智能在药物发现中的作用》，附论文与31页PPT

剑桥大学《人工智能在药物发现中的作用》，附论文与31页PPT

专知会员服务

56+阅读 · 2021年2月20日

医疗健康领域的短文本理解

医疗健康领域的短文本理解

专知会员服务

33+阅读 · 2021年1月2日

【滑铁卢大学】医学图像分析中可解释的深度学习模型，18页pdf

【滑铁卢大学】医学图像分析中可解释的深度学习模型，18页pdf

专知会员服务

121+阅读 · 2020年5月31日

【AI+医疗】斯坦福大学最新博士论文《深度学习在医学影像理解中的应用》，205页pdf

【AI+医疗】斯坦福大学最新博士论文《深度学习在医学影像理解中的应用》，205页pdf

专知

23+阅读 · 2022年4月5日

联邦学习如何用于医疗？Deakin最新《联邦学习智慧医疗》综述论文全面阐述联邦学习在医疗的应用

联邦学习如何用于医疗？Deakin最新《联邦学习智慧医疗》综述论文全面阐述联邦学习在医疗的应用

专知

14+阅读 · 2021年11月27日

医疗健康领域的短文本解析探索----文本纠错

医疗健康领域的短文本解析探索----文本纠错

深度学习自然语言处理

10+阅读 · 2020年8月5日

【综述】医疗可解释人工智能综述论文

【综述】医疗可解释人工智能综述论文

专知

33+阅读 · 2019年7月18日

医疗中的自动机器学习和可解释性

医疗中的自动机器学习和可解释性

专知

24+阅读 · 2019年4月1日

目标检测集成框架在医学图像 AI 辅助分析中的应用

目标检测集成框架在医学图像 AI 辅助分析中的应用

AI掘金志

11+阅读 · 2019年3月1日

差分隐私保护：从入门到脱坑

差分隐私保护：从入门到脱坑

FreeBuf

17+阅读 · 2018年9月10日

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

专知

21+阅读 · 2018年5月14日

Google 医疗 AI 新成果：用深度学习分析电子病历，预测患者病情发展

Google 医疗 AI 新成果：用深度学习分析电子病历，预测患者病情发展

AI掘金志

16+阅读 · 2018年5月9日

基于深度学习的医疗影像论文汇总（Deep Learning Papers on Medical Image Analysis）

基于深度学习的医疗影像论文汇总（Deep Learning Papers on Medical Image Analysis）

AI研习社

17+阅读 · 2017年10月21日

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

基于临床代谢组学推断代谢功能异常的生物信息学方法

国家自然科学基金

1+阅读 · 2016年12月31日

基于多主题和网络模型的社交媒体电子医疗用户推荐研究

国家自然科学基金

2+阅读 · 2015年12月31日

生物医疗大数据集成分析的统计与计算方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

医生工作生态视角下的分级诊疗机制建模与实证研究

国家自然科学基金

2+阅读 · 2015年12月31日

复杂纵向数据的分位回归建模及其在生物医学大数据中的应用

国家自然科学基金

4+阅读 · 2015年12月31日

基于EHR结构模型和DCM的医学术语协同化方法研究

国家自然科学基金

4+阅读 · 2014年12月31日

医疗健康网站信息可信度与质量控制研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于部分核实数据的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

中英文论文中的中国作者姓名消歧研究

国家自然科学基金

0+阅读 · 2014年12月31日

Bridging the Gap in the Responsible AI Divides

Arxiv

0+阅读 · 3月15日

Evaluation format, not model capability, drives triage failure in the assessment of consumer health AI

Arxiv

0+阅读 · 3月15日

Decomposing Physician Disagreement in HealthBench

Arxiv

0+阅读 · 3月8日

Towards explainable reference-free speech intelligibility evaluation of people with pathological speech

Arxiv

0+阅读 · 2月13日

ClinAlign: Scaling Healthcare Alignment from Clinician Preference

Arxiv

0+阅读 · 2月10日

Rethinking Explainable Disease Prediction: Synergizing Accuracy and Reliability via Reflective Cognitive Architecture

Arxiv

0+阅读 · 2月8日

Understanding Fairness and Prediction Error through Subspace Decomposition and Influence Analysis

Arxiv

0+阅读 · 2月7日

Towards Visually Explaining Statistical Tests with Applications in Biomedical Imaging

Arxiv

0+阅读 · 2月5日

Understanding-informed Bias Mitigation for Fair CMR Segmentation

Arxiv

0+阅读 · 2月3日

Clinical Data Goes MEDS? Let's OWL make sense of it

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

对抗环境下超视距目标打击的情报支援

对抗环境下超视距目标打击的情报支援

专知会员服务

3+阅读 · 今天14:49

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

专知会员服务

1+阅读 · 今天14:25

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

专知会员服务

2+阅读 · 今天13:57

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

专知会员服务

2+阅读 · 今天13:27

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

11+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

10+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

4+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

6+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

8+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

6+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

8+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

9+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

8+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

10+阅读 · 7月20日

相关VIP内容

港科大最新《深度学习医学图像分割MedISeg》综述论文，21页pdf涵盖212篇文献阐述MedISeg技巧、挑战和未来方向

港科大最新《深度学习医学图像分割MedISeg》综述论文，21页pdf涵盖212篇文献阐述MedISeg技巧、挑战和未来方向

专知会员服务

42+阅读 · 2022年9月22日

【MIT博士论文】异构医疗数据表示学习，193页pdf

【MIT博士论文】异构医疗数据表示学习，193页pdf

专知会员服务

61+阅读 · 2022年9月3日

《用于医疗数据的分析和机器学习》佐治亚理工学院137页博士论文

《用于医疗数据的分析和机器学习》佐治亚理工学院137页博士论文

专知会员服务

26+阅读 · 2022年7月21日

MIT最新论文《对可解释特征的需求：动机和分类》：在机器学习模型的组成元素中建立可解释性

MIT最新论文《对可解释特征的需求：动机和分类》：在机器学习模型的组成元素中建立可解释性

专知会员服务

25+阅读 · 2022年6月30日

医学诊断如何可解释？贝拉内大学最新《医学诊断中可解释深度学习方法》综述，36页pdf153篇文献概述最新XAI医学诊断进展

医学诊断如何可解释？贝拉内大学最新《医学诊断中可解释深度学习方法》综述，36页pdf153篇文献概述最新XAI医学诊断进展

专知会员服务

92+阅读 · 2022年5月14日

【PKDD2021】医疗健康中的公平机器学习:实用指南，142页ppt

专知会员服务

30+阅读 · 2021年6月9日

基于图深度学习的医疗诊断与分析：过去，现在与未来

专知会员服务

68+阅读 · 2021年6月3日

剑桥大学《人工智能在药物发现中的作用》，附论文与31页PPT

剑桥大学《人工智能在药物发现中的作用》，附论文与31页PPT

专知会员服务

56+阅读 · 2021年2月20日

医疗健康领域的短文本理解

医疗健康领域的短文本理解

专知会员服务

33+阅读 · 2021年1月2日

【滑铁卢大学】医学图像分析中可解释的深度学习模型，18页pdf

【滑铁卢大学】医学图像分析中可解释的深度学习模型，18页pdf

专知会员服务

121+阅读 · 2020年5月31日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

对抗环境下超视距目标打击的情报支援

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

相关资讯

【AI+医疗】斯坦福大学最新博士论文《深度学习在医学影像理解中的应用》，205页pdf

【AI+医疗】斯坦福大学最新博士论文《深度学习在医学影像理解中的应用》，205页pdf

专知

23+阅读 · 2022年4月5日

联邦学习如何用于医疗？Deakin最新《联邦学习智慧医疗》综述论文全面阐述联邦学习在医疗的应用

联邦学习如何用于医疗？Deakin最新《联邦学习智慧医疗》综述论文全面阐述联邦学习在医疗的应用

专知

14+阅读 · 2021年11月27日

医疗健康领域的短文本解析探索----文本纠错

医疗健康领域的短文本解析探索----文本纠错

深度学习自然语言处理

10+阅读 · 2020年8月5日

【综述】医疗可解释人工智能综述论文

【综述】医疗可解释人工智能综述论文

专知

33+阅读 · 2019年7月18日

医疗中的自动机器学习和可解释性

医疗中的自动机器学习和可解释性

专知

24+阅读 · 2019年4月1日

目标检测集成框架在医学图像 AI 辅助分析中的应用

目标检测集成框架在医学图像 AI 辅助分析中的应用

AI掘金志

11+阅读 · 2019年3月1日

差分隐私保护：从入门到脱坑

差分隐私保护：从入门到脱坑

FreeBuf

17+阅读 · 2018年9月10日

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

专知

21+阅读 · 2018年5月14日

Google 医疗 AI 新成果：用深度学习分析电子病历，预测患者病情发展

Google 医疗 AI 新成果：用深度学习分析电子病历，预测患者病情发展

AI掘金志

16+阅读 · 2018年5月9日

基于深度学习的医疗影像论文汇总（Deep Learning Papers on Medical Image Analysis）

基于深度学习的医疗影像论文汇总（Deep Learning Papers on Medical Image Analysis）

AI研习社

17+阅读 · 2017年10月21日

相关论文

Bridging the Gap in the Responsible AI Divides

Arxiv

0+阅读 · 3月15日

Evaluation format, not model capability, drives triage failure in the assessment of consumer health AI

Arxiv

0+阅读 · 3月15日

Decomposing Physician Disagreement in HealthBench

Arxiv

0+阅读 · 3月8日

Towards explainable reference-free speech intelligibility evaluation of people with pathological speech

Arxiv

0+阅读 · 2月13日

ClinAlign: Scaling Healthcare Alignment from Clinician Preference

Arxiv

0+阅读 · 2月10日

Rethinking Explainable Disease Prediction: Synergizing Accuracy and Reliability via Reflective Cognitive Architecture

Arxiv

0+阅读 · 2月8日

Understanding Fairness and Prediction Error through Subspace Decomposition and Influence Analysis

Arxiv

0+阅读 · 2月7日

Towards Visually Explaining Statistical Tests with Applications in Biomedical Imaging

Arxiv

0+阅读 · 2月5日

Understanding-informed Bias Mitigation for Fair CMR Segmentation

Arxiv

0+阅读 · 2月3日

Clinical Data Goes MEDS? Let's OWL make sense of it

Arxiv

0+阅读 · 2月2日

相关基金

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

基于临床代谢组学推断代谢功能异常的生物信息学方法

国家自然科学基金

1+阅读 · 2016年12月31日

基于多主题和网络模型的社交媒体电子医疗用户推荐研究

国家自然科学基金

2+阅读 · 2015年12月31日

生物医疗大数据集成分析的统计与计算方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

医生工作生态视角下的分级诊疗机制建模与实证研究

国家自然科学基金

2+阅读 · 2015年12月31日

复杂纵向数据的分位回归建模及其在生物医学大数据中的应用

国家自然科学基金

4+阅读 · 2015年12月31日

基于EHR结构模型和DCM的医学术语协同化方法研究

国家自然科学基金

4+阅读 · 2014年12月31日

医疗健康网站信息可信度与质量控制研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于部分核实数据的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

中英文论文中的中国作者姓名消歧研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员