Large Language Models (LLMs) are increasingly deployed in healthcare, yet their communicative alignment with clinical standards remains insufficiently quantified. We conduct a multidimensional evaluation of general-purpose and domain-specialized LLMs across structured medical explanations and real-world physician-patient interactions, analyzing semantic fidelity, readability, and affective resonance. Baseline models amplify affective polarity relative to physicians (Very Negative: 43.14-45.10% vs. 37.25%) and, in larger architectures such as GPT-5 and Claude, produce substantially higher linguistic complexity (FKGL up to 16.91-17.60 vs. 11.47-12.50 in physician-authored responses). Empathy-oriented prompting reduces extreme negativity and lowers grade-level complexity (up to -6.87 FKGL points for GPT-5) but does not significantly increase semantic fidelity. Collaborative rewriting yields the strongest overall alignment. Rephrase configurations achieve the highest semantic similarity to physician answers (up to mean = 0.93) while consistently improving readability and reducing affective extremity. Dual stakeholder evaluation shows that no model surpasses physicians on epistemic criteria, whereas patients consistently prefer rewritten variants for clarity and emotional tone. These findings suggest that LLMs function most effectively as collaborative communication enhancers rather than replacements for clinical expertise.


翻译:大语言模型(LLMs)正越来越多地应用于医疗健康领域,但其与临床标准的沟通校准程度尚未被充分量化。我们对通用型与领域专用型LLMs在结构化医学解释及真实医患互动场景中进行了多维度评估,分析了语义保真度、可读性及情感共鸣。基础模型相较于医生会放大情感极性(极负面:43.14%-45.10% vs. 37.25%),且在GPT-5和Claude等更大规模架构中产生了显著更高的语言复杂度(FKGL分数高达16.91-17.60,而医生撰写的回复为11.47-12.50)。共情导向提示能降低极端负性表达并减少年级水平复杂度(GPT-5最多降低6.87个FKGL分数),但未能显著提升语义保真度。协作式改写实现了最强的整体校准效果。改写配置在与医生答案的语义相似度上达到最高(均值高达0.93),同时持续改善可读性并降低情感极端性。双重利益相关方评估显示,没有模型在认知标准上超越医生,而患者则因清晰度和情感基调持续偏好改写版本。这些发现表明,LLMs作为协作式沟通增强工具比替代临床专业知识更为有效。

0
下载
关闭预览

相关内容

医学领域大型语言模型的新进展
专知会员服务
25+阅读 · 2025年10月5日
【斯坦福博士论文】大语言模型的AI辅助评估
专知会员服务
31+阅读 · 2025年3月30日
【新书】大模型与生成式人工智能医学应用,58页pdf
专知会员服务
109+阅读 · 2024年3月19日
医学中大型语言模型综述:进展、应用与挑战
专知会员服务
63+阅读 · 2023年11月11日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
医疗中的自动机器学习和可解释性
专知
24+阅读 · 2019年4月1日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
医学领域大型语言模型的新进展
专知会员服务
25+阅读 · 2025年10月5日
【斯坦福博士论文】大语言模型的AI辅助评估
专知会员服务
31+阅读 · 2025年3月30日
【新书】大模型与生成式人工智能医学应用,58页pdf
专知会员服务
109+阅读 · 2024年3月19日
医学中大型语言模型综述:进展、应用与挑战
专知会员服务
63+阅读 · 2023年11月11日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员