Current medical language model (LM) benchmarks often over-simplify the complexities of day-to-day clinical practice tasks and instead rely on evaluating LMs on multiple-choice board exam questions. In psychiatry especially, these challenges are worsened by fairness and bias issues, since models can be swayed by patient demographics even when those factors should not influence clinical decisions. Thus, we present an expert-created and annotated dataset spanning five critical domains of decision-making in mental healthcare: treatment, diagnosis, documentation, monitoring, and triage. This U.S.-centric dataset - created without any LM assistance - is designed to capture the nuanced clinical reasoning and daily ambiguities mental health practitioners encounter, reflecting the inherent complexities of care delivery that are missing from existing datasets. Almost all base questions with five answer options each have had the decision-irrelevant demographic patient information removed and replaced with variables, e.g., for age or ethnicity, and are available for male, female, or non-binary-coded patients. This design enables systematic evaluations of model performance and bias by studying how demographic factors affect decision-making. For question categories dealing with ambiguity and multiple valid answer options, we create a preference dataset with uncertainties from the expert annotations. We outline a series of intended use cases and demonstrate the usability of our dataset by evaluating sixteen off-the-shelf and six (mental) health fine-tuned LMs on category-specific task accuracy, on the fairness impact of patient demographic information on decision-making, and how consistently free-form responses deviate from human-annotated samples.


翻译:当前医学语言模型(LM)基准测试往往过度简化日常临床实践任务的复杂性,转而依赖多项选择题形式的执业资格考试对LM进行评估。尤其在精神病学领域,公平性与偏见问题加剧了这些挑战,因为模型可能受患者人口统计学特征影响,即使这些因素本不应左右临床决策。为此,我们提出了一个由专家创建并标注的数据集,涵盖心理健康护理中五个关键决策领域:治疗、诊断、文书记录、监测和分诊。这个以美国为中心的数据集——在无任何LM辅助下创建——旨在捕捉心理健康从业者面临的细微临床推理与日常模糊情境,反映现有数据集中缺失的护理服务固有复杂性。几乎所有包含五个选项的基础问题均已移除与决策无关的患者人口统计信息,并替换为变量(如年龄或种族),且提供针对男性、女性或非二元性别编码患者的版本。该设计通过研究人口统计因素如何影响决策,实现了对模型性能与偏见的系统性评估。针对涉及模糊性和多个有效答案选项的问题类别,我们基于专家标注中的不确定性创建了偏好数据集。我们规划了一系列预期使用场景,并通过评估十六个现成模型及六个(心理)健康领域微调LM在特定类别任务准确度、患者人口统计信息对决策的公平性影响,以及自由形式回答与人工标注样本的偏离一致性,验证了数据集的可用性。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
【CIKM2025教程】语言模型的公平性:一篇教程,170页ppt
专知会员服务
16+阅读 · 2025年11月16日
【NTU博士论文】让语言模型更接近人类学习者
专知会员服务
18+阅读 · 2025年5月3日
【博士论文】语言模型与人类偏好对齐,148页pdf
专知会员服务
32+阅读 · 2024年4月21日
大型语言模型公平性
专知会员服务
41+阅读 · 2023年8月31日
【AI与医学】多模态机器学习精准医疗健康
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
医疗中的自动机器学习和可解释性
专知
24+阅读 · 2019年4月1日
基于深度学习的NLP 32页最新进展综述,190篇参考文献
人工智能学家
28+阅读 · 2018年12月4日
原创 | Attention Modeling for Targeted Sentiment
黑龙江大学自然语言处理实验室
25+阅读 · 2017年11月5日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员