In recent years, Large Language Models (LLMs) have become widely used in medical applications, such as clinical decision support, medical education, and medical question answering. Yet, these models are often English-centric, limiting their robustness and reliability for linguistically diverse communities. Recent work has highlighted discrepancies in performance in low-resource languages for various medical tasks, but the underlying causes remain poorly understood. In this study, we conduct a cross-lingual empirical analysis of LLM performance on Arabic and English medical question and answering. Our findings reveal a persistent language-driven performance gap that intensifies with increasing task complexity. Tokenization analysis exposes structural fragmentation in Arabic medical text, while reliability analysis suggests that model-reported confidence and explanations exhibit limited correlation with correctness. Together, these findings underscore the need for language-aware design and evaluation strategies in LLMs for medical tasks.


翻译:近年来,大型语言模型(LLMs)在医疗应用中得到广泛使用,例如临床决策支持、医学教育和医疗问答。然而,这些模型通常以英语为中心,限制了其在语言多样化社区中的鲁棒性和可靠性。近期研究强调了在各类医疗任务中,低资源语言性能存在差异,但其根本原因仍不甚明了。本研究对LLMs在阿拉伯语和英语医疗问答任务中的表现进行了跨语言实证分析。我们的研究结果揭示了一种持续存在的语言驱动性能差距,且该差距随任务复杂度增加而加剧。词元化分析暴露了阿拉伯语医疗文本的结构性碎片化问题,而可靠性分析表明模型报告的置信度与解释与正确性的相关性有限。这些发现共同强调了在医疗任务中,LLMs需要采用语言感知的设计与评估策略。

0
下载
关闭预览

相关内容

评估大语言模型在科学发现中的作用
专知会员服务
19+阅读 · 2025年12月19日
医学领域大型语言模型的新进展
专知会员服务
25+阅读 · 2025年10月5日
赋能大型语言模型多领域资源挑战
专知会员服务
10+阅读 · 2025年6月10日
大语言模型与小语言模型协同机制综述
专知会员服务
38+阅读 · 2025年5月15日
大型语言模型疾病诊断综述
专知会员服务
32+阅读 · 2024年9月21日
用于疾病诊断的大型语言模型:范围综述
专知会员服务
26+阅读 · 2024年9月8日
「大型语言模型评测」综述
专知会员服务
70+阅读 · 2024年3月30日
医学中大型语言模型综述:进展、应用与挑战
专知会员服务
62+阅读 · 2023年11月11日
天大最新《大型语言模型评估》全面综述,111页pdf
专知会员服务
88+阅读 · 2023年10月31日
医疗中的自动机器学习和可解释性
专知
24+阅读 · 2019年4月1日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关VIP内容
评估大语言模型在科学发现中的作用
专知会员服务
19+阅读 · 2025年12月19日
医学领域大型语言模型的新进展
专知会员服务
25+阅读 · 2025年10月5日
赋能大型语言模型多领域资源挑战
专知会员服务
10+阅读 · 2025年6月10日
大语言模型与小语言模型协同机制综述
专知会员服务
38+阅读 · 2025年5月15日
大型语言模型疾病诊断综述
专知会员服务
32+阅读 · 2024年9月21日
用于疾病诊断的大型语言模型:范围综述
专知会员服务
26+阅读 · 2024年9月8日
「大型语言模型评测」综述
专知会员服务
70+阅读 · 2024年3月30日
医学中大型语言模型综述:进展、应用与挑战
专知会员服务
62+阅读 · 2023年11月11日
天大最新《大型语言模型评估》全面综述,111页pdf
专知会员服务
88+阅读 · 2023年10月31日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员