While large language models (LLMs) have shown to perform well on monolingual mathematical and commonsense reasoning, they remain unreliable for multilingual medical reasoning applications, hindering their deployment in multilingual healthcare settings. We address this by first introducing CUREMED-BENCH, a high-quality multilingual medical reasoning dataset with open-ended reasoning queries with a single verifiable answer, spanning thirteen languages, including underrepresented languages such as Amharic, Yoruba, and Swahili. Building on this dataset, we propose CURE-MED, a curriculum-informed reinforcement learning framework that integrates code-switching-aware supervised fine-tuning and Group Relative Policy Optimization to jointly improve logical correctness and language stability. Across thirteen languages, our approach consistently outperforms strong baselines and scales effectively, achieving 85.21% language consistency and 54.35% logical correctness at 7B parameters, and 94.96% language consistency and 70.04% logical correctness at 32B parameters. These results support reliable and equitable multilingual medical reasoning in LLMs. The code and dataset are available at https://cure-med.github.io/


翻译:尽管大型语言模型(LLM)在单语言的数学和常识推理任务中表现良好,但在多语言医学推理应用中仍不可靠,这阻碍了其在多语言医疗环境中的部署。为解决这一问题,我们首先引入了CUREMED-BENCH,这是一个高质量的多语言医学推理数据集,包含具有单一可验证答案的开放式推理查询,涵盖十三种语言,包括阿姆哈拉语、约鲁巴语和斯瓦希里语等代表性不足的语言。基于此数据集,我们提出了CURE-MED,一种基于课程学习的强化学习框架,该框架整合了代码切换感知的监督微调和组相对策略优化,以共同提升逻辑正确性和语言稳定性。在十三种语言中,我们的方法始终优于强基线模型,并展现出良好的扩展性:在70亿参数规模下实现了85.21%的语言一致性和54.35%的逻辑正确性,在320亿参数规模下达到了94.96%的语言一致性和70.04%的逻辑正确性。这些结果支持了LLM实现可靠且公平的多语言医学推理。代码和数据集可在 https://cure-med.github.io/ 获取。

0
下载
关闭预览

相关内容

面向大型推理模型的强化学习综述
专知会员服务
29+阅读 · 2025年9月11日
迈向大型推理模型:基于大型语言模型的强化推理综述
专知会员服务
49+阅读 · 2025年1月17日
Nat. Med. | 医学中的大型语言模型
专知会员服务
58+阅读 · 2023年9月19日
医疗中的自动机器学习和可解释性
专知
24+阅读 · 2019年4月1日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
论文浅尝 | 基于神经网络的知识推理
开放知识图谱
15+阅读 · 2018年3月12日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员