As large language models (LLMs) gain popularity among speakers of diverse languages, we believe that it is crucial to benchmark them to better understand model behaviors, failures, and limitations in languages beyond English. In this work, we evaluate LLM APIs (ChatGPT, GPT-3, and GPT-4) on the Japanese national medical licensing examinations from the past five years. Our team comprises native Japanese-speaking NLP researchers and a practicing cardiologist based in Japan. Our experiments show that GPT-4 outperforms ChatGPT and GPT-3 and passes all five years of the exams, highlighting LLMs' potential in a language that is typologically distant from English. However, our evaluation also exposes critical limitations of the current LLM APIs. First, LLMs sometimes select prohibited choices that should be strictly avoided in medical practice in Japan, such as suggesting euthanasia. Further, our analysis shows that the API costs are generally higher and the maximum context size is smaller for Japanese because of the way non-Latin scripts are currently tokenized in the pipeline. We release our benchmark as Igaku QA as well as all model outputs and exam metadata. We hope that our results and benchmark will spur progress on more diverse applications of LLMs. Our benchmark is available at https://github.com/jungokasai/IgakuQA.


翻译:随着大型语言模型(LLMs)在多种语言使用者中日益普及,我们认为有必要对其进行基准测试,以更深入地理解模型在非英语语言中的行为、失败模式及局限性。本研究对过去五年日本国家医学执照考试中的LLM应用程序接口(ChatGPT、GPT-3和GPT-4)进行了评估。研究团队由母语为日语的NLP研究人员及一名在日本执业的执业心脏病专家组成。实验表明,GPT-4在全部五年考试中均优于ChatGPT和GPT-3并通过考核,凸显了LLMs在类型学上与英语相距甚远的语言中的潜力。然而,评估也揭示了当前LLM应用程序接口的关键局限性。首先,LLMs有时会选取在日本医疗实践中应严格禁止的选项(如建议安乐死)。此外,分析显示由于管道对非拉丁字母的当前分词方式,日语的应用程序接口使用成本普遍较高,最大上下文长度也较小。我们将基准测试数据集命名为Igaku QA,并公开所有模型输出及考试元数据。希望我们的结果和基准测试能推动LLMs在更多样化场景中的应用。基准测试数据集详见 https://github.com/jungokasai/IgakuQA。

0
下载
关闭预览

相关内容

日本国位于东亚,是由日本列岛(北海道·本州·四国·九州及其相关岛屿),及南西诸岛,小笠原诸岛等众岛屿组成的岛国。国土面积377,961,73k㎡(62位)。人口总数一亿2688万人(2015年)(10位)。公用语,日本语。国歌,《君が代》,首都,东京都。
130亿参数,8个A100训练,UC伯克利发布对话模型Koala
专知会员服务
44+阅读 · 2023年4月5日
【2022新书】高效深度学习,Efficient Deep Learning Book
专知会员服务
128+阅读 · 2022年4月21日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
LibRec 精选:推荐系统的常用数据集
LibRec智能推荐
17+阅读 · 2019年2月15日
【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集
泡泡机器人SLAM
11+阅读 · 2019年1月4日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
可解释的CNN
CreateAMind
18+阅读 · 2017年10月5日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2023年5月19日
VIP会员
最新内容
【剑桥博士论文】智能体-环境协同优化
专知会员服务
4+阅读 · 6月9日
为初级军官战术训练设计生成式人工智能平台
专知会员服务
6+阅读 · 6月9日
《美军条令:作战伤员后送保障》
专知会员服务
4+阅读 · 6月9日
《美空军条令出版物 4-0,维持》
专知会员服务
4+阅读 · 6月9日
《基于仿真的空军任务规划优化》
专知会员服务
4+阅读 · 6月9日
相关VIP内容
130亿参数,8个A100训练,UC伯克利发布对话模型Koala
专知会员服务
44+阅读 · 2023年4月5日
【2022新书】高效深度学习,Efficient Deep Learning Book
专知会员服务
128+阅读 · 2022年4月21日
相关资讯
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
LibRec 精选:推荐系统的常用数据集
LibRec智能推荐
17+阅读 · 2019年2月15日
【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集
泡泡机器人SLAM
11+阅读 · 2019年1月4日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
可解释的CNN
CreateAMind
18+阅读 · 2017年10月5日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员