Medicine is inherently pluralistic. Principles such as autonomy, beneficence, nonmaleficence, and justice routinely conflict, and such ethical dilemmas often sharply divide reasonable physicians. Good clinical practice navigates these tensions in concert with each patient's values rather than imposing a single ethical stance. The ethical values that large language models bring to medical advice, however, have not been systematically examined. We present a framework for auditing value pluralism in medical AI, comprising a benchmark of clinician-verified dilemmas and an attribution method that recovers value priorities directly from decisions. The ecosystem of frontier models spans physician-level value heterogeneity, and models discuss competing values in their reasoning (Overton pluralism) before committing to a decision. However, individual model decisions are near-deterministic across repeated sampling and semantic variations, failing to reproduce the distributional pluralism of the physician panel. Across benchmark cases, these consistent decisions reflect committed, systematic value preferences. While most model priorities fall within the natural range of inter-physician variation, some significantly underweight patient autonomy. A single LLM deployed without regard for its value priorities could amplify those priorities at scale to every patient it serves. Without explicit efforts to balance ethical perspectives with one or multiple models, these tools risk replacing clinical pluralism with a deployment monoculture.


翻译:医学本质上是多元的。自主性、善行、无害与公正等原则常常相互冲突,这类伦理困境往往使理性医师间产生严重分歧。良好的临床实践应结合每位患者的价值观来协调这些张力,而非强加单一伦理立场。然而,大型语言模型在医疗建议中所体现的伦理价值观尚未得到系统检验。我们提出一个用于审计医疗AI中价值多元性的框架,包含经临床专家验证的困境基准集以及一种直接从决策中恢复价值优先级的归因方法。前沿模型生态系统覆盖了医师层面的价值异质性,模型在推理中会讨论相互竞争的价值(奥弗顿多元论)后再做出决策。然而,单个模型的决策在重复采样和语义变体下近乎确定,无法复现医师小组中的分布性多元性。在基准案例中,这些一致决策反映了固执的、系统性的价值偏好。虽然大多数模型的优先级落在医师间差异的自然范围内,但有些显著低估了患者自主性。若将单一LLM部署时不考虑其价值优先级,它可能将其优先级大规模强加给所服务的每位患者。若不以一个或多个模型明确平衡伦理视角,这些工具将面临以部署单一文化取代临床多元性的风险。

0
下载
关闭预览

相关内容

ACM/IEEE第23届模型驱动工程语言和系统国际会议,是模型驱动软件和系统工程的首要会议系列,由ACM-SIGSOFT和IEEE-TCSE支持组织。自1998年以来,模型涵盖了建模的各个方面,从语言和方法到工具和应用程序。模特的参加者来自不同的背景,包括研究人员、学者、工程师和工业专业人士。MODELS 2019是一个论坛,参与者可以围绕建模和模型驱动的软件和系统交流前沿研究成果和创新实践经验。今年的版本将为建模社区提供进一步推进建模基础的机会,并在网络物理系统、嵌入式系统、社会技术系统、云计算、大数据、机器学习、安全、开源等新兴领域提出建模的创新应用以及可持续性。 官网链接:http://www.modelsconference.org/
人工智能伦理风险与治理研究
专知会员服务
20+阅读 · 2025年4月22日
AI在医疗中的安全挑战
专知会员服务
19+阅读 · 2024年10月5日
迈向可信的人工智能:伦理和稳健的大型语言模型综述
专知会员服务
39+阅读 · 2024年7月28日
大语言模型价值观对齐研究与展望
专知会员服务
37+阅读 · 2024年3月19日
人工智能伦理计算
专知会员服务
39+阅读 · 2023年10月13日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
【AI与医学】多模态机器学习精准医疗健康
医疗中的自动机器学习和可解释性
专知
24+阅读 · 2019年4月1日
【混合智能】人机混合智能的哲学思考
产业智能官
12+阅读 · 2018年10月28日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
人工智能伦理风险与治理研究
专知会员服务
20+阅读 · 2025年4月22日
AI在医疗中的安全挑战
专知会员服务
19+阅读 · 2024年10月5日
迈向可信的人工智能:伦理和稳健的大型语言模型综述
专知会员服务
39+阅读 · 2024年7月28日
大语言模型价值观对齐研究与展望
专知会员服务
37+阅读 · 2024年3月19日
人工智能伦理计算
专知会员服务
39+阅读 · 2023年10月13日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员