Evaluating GPT-4 and ChatGPT on Japanese Medical Licensing Examinations - 专知论文

会员服务 ·

0

日本 · 基准测试 · GPT-4 · 基准 · ChatGPT ·

2023 年 3 月 31 日

Evaluating GPT-4 and ChatGPT on Japanese Medical Licensing Examinations

翻译：评估GPT-4与ChatGPT在日本医学执照考试中的表现

Jungo Kasai,Yuhei Kasai,Keisuke Sakaguchi,Yutaro Yamada,Dragomir Radev

As large language models (LLMs) gain popularity among speakers of diverse languages, we believe that it is crucial to benchmark them to better understand model behaviors, failures, and limitations in languages beyond English. In this work, we evaluate LLM APIs (ChatGPT, GPT-3, and GPT-4) on the Japanese national medical licensing examinations from the past five years. Our team comprises native Japanese-speaking NLP researchers and a practicing cardiologist based in Japan. Our experiments show that GPT-4 outperforms ChatGPT and GPT-3 and passes all five years of the exams, highlighting LLMs' potential in a language that is typologically distant from English. However, our evaluation also exposes critical limitations of the current LLM APIs. First, LLMs sometimes select prohibited choices that should be strictly avoided in medical practice in Japan, such as suggesting euthanasia. Further, our analysis shows that the API costs are generally higher and the maximum context size is smaller for Japanese because of the way non-Latin scripts are currently tokenized in the pipeline. We release our benchmark as Igaku QA as well as all model outputs and exam metadata. We hope that our results and benchmark will spur progress on more diverse applications of LLMs. Our benchmark is available at https://github.com/jungokasai/IgakuQA.

翻译：随着大型语言模型（LLMs）在多种语言使用者中日益普及，我们认为有必要对其进行基准测试，以更深入地理解模型在非英语语言中的行为、失败模式及局限性。本研究对过去五年日本国家医学执照考试中的LLM应用程序接口（ChatGPT、GPT-3和GPT-4）进行了评估。研究团队由母语为日语的NLP研究人员及一名在日本执业的执业心脏病专家组成。实验表明，GPT-4在全部五年考试中均优于ChatGPT和GPT-3并通过考核，凸显了LLMs在类型学上与英语相距甚远的语言中的潜力。然而，评估也揭示了当前LLM应用程序接口的关键局限性。首先，LLMs有时会选取在日本医疗实践中应严格禁止的选项（如建议安乐死）。此外，分析显示由于管道对非拉丁字母的当前分词方式，日语的应用程序接口使用成本普遍较高，最大上下文长度也较小。我们将基准测试数据集命名为Igaku QA，并公开所有模型输出及考试元数据。希望我们的结果和基准测试能推动LLMs在更多样化场景中的应用。基准测试数据集详见 https://github.com/jungokasai/IgakuQA。

0

相关内容

日本国位于东亚，是由日本列岛（北海道·本州·四国·九州及其相关岛屿），及南西诸岛，小笠原诸岛等众岛屿组成的岛国。国土面积377,961,73k㎡（62位）。人口总数一亿2688万人（2015年）（10位）。公用语，日本语。国歌，《君が代》，首都，东京都。

大模型如何构建“医生级”问答？谷歌DeepMInd最新《基于大型语言模型的专家级医疗问答研究》论文，提出Med-PaLM 2

大模型如何构建“医生级”问答？谷歌DeepMInd最新《基于大型语言模型的专家级医疗问答研究》论文，提出Med-PaLM 2

专知会员服务

65+阅读 · 2023年5月21日

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

专知会员服务

77+阅读 · 2023年4月26日

用ChatGPT训练羊驼：「白泽」开源，轻松构建专属模型，可在线试玩

用ChatGPT训练羊驼：「白泽」开源，轻松构建专属模型，可在线试玩

专知会员服务

69+阅读 · 2023年4月5日

130亿参数，8个A100训练，UC伯克利发布对话模型Koala

130亿参数，8个A100训练，UC伯克利发布对话模型Koala

专知会员服务

44+阅读 · 2023年4月5日

CVPR 2023 | Prophet: 用小模型启发大语言模型解决外部知识图像问答

CVPR 2023 | Prophet: 用小模型启发大语言模型解决外部知识图像问答

专知会员服务

54+阅读 · 2023年4月1日

GPT-4在医学上能力如何？微软OpenAI《GPT-4在医疗难题上的能力》论文

GPT-4在医学上能力如何？微软OpenAI《GPT-4在医疗难题上的能力》论文

专知会员服务

115+阅读 · 2023年3月24日

【2022新书】高效深度学习，Efficient Deep Learning Book

【2022新书】高效深度学习，Efficient Deep Learning Book

专知会员服务

128+阅读 · 2022年4月21日

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

专知会员服务

38+阅读 · 2022年3月25日

【牛津大学】电子医疗记录的生成式对抗网络:应用、评估措施和数据来源综述，A review of Generative Adversarial Networks for Electronic Health Records: applications, evaluation measures and data sources

【牛津大学】电子医疗记录的生成式对抗网络:应用、评估措施和数据来源综述，A review of Generative Adversarial Networks for Electronic Health Records: applications, evaluation measures and data sources

专知会员服务

24+阅读 · 2022年3月15日

【干货书】机器学习设计模式，408页pdf，Machine Learning Design Patterns

【干货书】机器学习设计模式，408页pdf，Machine Learning Design Patterns

专知会员服务

138+阅读 · 2022年2月6日

首次：微软用GPT-4做大模型指令微调，新任务零样本性能再提升

首次：微软用GPT-4做大模型指令微调，新任务零样本性能再提升

机器之心

7+阅读 · 2023年4月9日

CLUE社区最新神器！PromptCLUE：大规模多任务Prompt预训练中文开源模型

CLUE社区最新神器！PromptCLUE：大规模多任务Prompt预训练中文开源模型

新智元

0+阅读 · 2022年10月30日

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

RoBERTa中文预训练模型：RoBERTa for Chinese

RoBERTa中文预训练模型：RoBERTa for Chinese

PaperWeekly

57+阅读 · 2019年9月16日

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

AINLP

30+阅读 · 2019年9月8日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

LibRec 精选：推荐系统的常用数据集

LibRec 精选：推荐系统的常用数据集

LibRec智能推荐

17+阅读 · 2019年2月15日

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

泡泡机器人SLAM

11+阅读 · 2019年1月4日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

可解释的CNN

可解释的CNN

CreateAMind

18+阅读 · 2017年10月5日

以基因功能研究为基础的结直肠癌易感区段10q22.3的精细定位

国家自然科学基金

0+阅读 · 2015年12月31日

“核HO-1”调控miRNA-125a-5p影响血脊髓屏障结构和功能的机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

PPAR β/δ基因在结直肠癌血管生成调控中的作用及分子机理

国家自然科学基金

2+阅读 · 2014年12月31日

重金属胁迫下NO和ROS互作调控盐生植物应答反应的作用机理研究

国家自然科学基金

0+阅读 · 2014年12月31日

人羊水干细胞向功能性汗腺细胞分化及其调控机制的研究

国家自然科学基金

0+阅读 · 2013年12月31日

低氧下白细胞介素-1β在肿瘤相关巨噬细胞介导肝癌上皮间质化中的作用研究

国家自然科学基金

0+阅读 · 2013年12月31日

井下密闭空间爆炸风险动态定量化评估模型

国家自然科学基金

0+阅读 · 2013年12月31日

结直肠癌中TOP2A与ZNF148的竞争性内源性RNA调控机制和功能研究

国家自然科学基金

0+阅读 · 2012年12月31日

酵母RNaseH2磷酸化调控机制及其生理功能的研究

国家自然科学基金

0+阅读 · 2012年12月31日

探索VASH2转录激活对肝细胞癌血管生成和上皮间质转化的作用及机制

国家自然科学基金

0+阅读 · 2011年12月31日

Evaluating ChatGPT's Performance for Multilingual and Emoji-based Hate Speech Detection

Arxiv

0+阅读 · 2023年5月23日

How do languages influence each other? Studying cross-lingual data sharing during LLM fine-tuning

Arxiv

0+阅读 · 2023年5月22日

Automatic Code Summarization via ChatGPT: How Far Are We?

Arxiv

0+阅读 · 2023年5月22日

Knowledge Refinement via Interaction Between Search Engines and Large Language Models

Arxiv

0+阅读 · 2023年5月21日

Comparing Software Developers with ChatGPT: An Empirical Investigation

Arxiv

0+阅读 · 2023年5月19日

TransPimLib: A Library for Efficient Transcendental Functions on Processing-in-Memory Systems

Arxiv

0+阅读 · 2023年5月19日

Environmental Claim Detection

Arxiv

0+阅读 · 2023年5月19日

Towards Expert-Level Medical Question Answering with Large Language Models

Arxiv

26+阅读 · 2023年5月16日

Trust in Human-AI Interaction: Scoping Out Models, Measures, and Methods

Arxiv

22+阅读 · 2022年4月30日

Explainable Deep Learning: A Field Guide for the Uninitiated

Arxiv

51+阅读 · 2021年9月13日

VIP会员

文章信息

相关主题

最新内容

博士论文 | 面向大模型推理的内存高效算法

博士论文 | 面向大模型推理的内存高效算法

专知会员服务

2+阅读 · 7月27日

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

专知会员服务

3+阅读 · 7月27日

《无人系统互操作性导论——无人系统联合架构（JAUS）》

《无人系统互操作性导论——无人系统联合架构（JAUS）》

专知会员服务

9+阅读 · 7月27日

美空军新型反无人机部队初探

美空军新型反无人机部队初探

专知会员服务

5+阅读 · 7月27日

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

专知会员服务

3+阅读 · 7月27日

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

专知会员服务

3+阅读 · 7月27日

《防空交战流程的概率建模研究》

《防空交战流程的概率建模研究》

专知会员服务

7+阅读 · 7月27日

ICML 2026 教程 | 数值优化理论还重要吗？

ICML 2026 教程 | 数值优化理论还重要吗？

专知会员服务

6+阅读 · 7月26日

ICM 2026 | 陶哲轩：人工智能时代的数学

ICM 2026 | 陶哲轩：人工智能时代的数学

专知会员服务

9+阅读 · 7月26日

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

专知会员服务

8+阅读 · 7月26日

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

专知会员服务

11+阅读 · 7月26日

《先进防空系统选型战略框架：基于巴基斯坦的实证启示》

《先进防空系统选型战略框架：基于巴基斯坦的实证启示》

专知会员服务

8+阅读 · 7月26日

《反无人机交战场景下的战斗归零研究》

《反无人机交战场景下的战斗归零研究》

专知会员服务

7+阅读 · 7月26日

霍尔木兹与不对称作战时代：水雷、无人系统与海军力量的重新定义

霍尔木兹与不对称作战时代：水雷、无人系统与海军力量的重新定义

专知会员服务

4+阅读 · 7月26日

博士论文 | 用代码结构感知方法推进代码大模型

博士论文 | 用代码结构感知方法推进代码大模型

专知会员服务

6+阅读 · 7月25日

相关VIP内容

大模型如何构建“医生级”问答？谷歌DeepMInd最新《基于大型语言模型的专家级医疗问答研究》论文，提出Med-PaLM 2

大模型如何构建“医生级”问答？谷歌DeepMInd最新《基于大型语言模型的专家级医疗问答研究》论文，提出Med-PaLM 2

专知会员服务

65+阅读 · 2023年5月21日

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

专知会员服务

77+阅读 · 2023年4月26日

用ChatGPT训练羊驼：「白泽」开源，轻松构建专属模型，可在线试玩

用ChatGPT训练羊驼：「白泽」开源，轻松构建专属模型，可在线试玩

专知会员服务

69+阅读 · 2023年4月5日

130亿参数，8个A100训练，UC伯克利发布对话模型Koala

130亿参数，8个A100训练，UC伯克利发布对话模型Koala

专知会员服务

44+阅读 · 2023年4月5日

CVPR 2023 | Prophet: 用小模型启发大语言模型解决外部知识图像问答

CVPR 2023 | Prophet: 用小模型启发大语言模型解决外部知识图像问答

专知会员服务

54+阅读 · 2023年4月1日

GPT-4在医学上能力如何？微软OpenAI《GPT-4在医疗难题上的能力》论文

GPT-4在医学上能力如何？微软OpenAI《GPT-4在医疗难题上的能力》论文

专知会员服务

115+阅读 · 2023年3月24日

【2022新书】高效深度学习，Efficient Deep Learning Book

【2022新书】高效深度学习，Efficient Deep Learning Book

专知会员服务

128+阅读 · 2022年4月21日

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

专知会员服务

38+阅读 · 2022年3月25日

【牛津大学】电子医疗记录的生成式对抗网络:应用、评估措施和数据来源综述，A review of Generative Adversarial Networks for Electronic Health Records: applications, evaluation measures and data sources

【牛津大学】电子医疗记录的生成式对抗网络:应用、评估措施和数据来源综述，A review of Generative Adversarial Networks for Electronic Health Records: applications, evaluation measures and data sources

专知会员服务

24+阅读 · 2022年3月15日

【干货书】机器学习设计模式，408页pdf，Machine Learning Design Patterns

【干货书】机器学习设计模式，408页pdf，Machine Learning Design Patterns

专知会员服务

138+阅读 · 2022年2月6日

热门VIP内容

开通专知VIP会员享更多权益服务

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

美空军新型反无人机部队初探

博士论文 | 面向大模型推理的内存高效算法

《无人系统互操作性导论——无人系统联合架构（JAUS）》

相关资讯

首次：微软用GPT-4做大模型指令微调，新任务零样本性能再提升

首次：微软用GPT-4做大模型指令微调，新任务零样本性能再提升

机器之心

7+阅读 · 2023年4月9日

CLUE社区最新神器！PromptCLUE：大规模多任务Prompt预训练中文开源模型

CLUE社区最新神器！PromptCLUE：大规模多任务Prompt预训练中文开源模型

新智元

0+阅读 · 2022年10月30日

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

RoBERTa中文预训练模型：RoBERTa for Chinese

RoBERTa中文预训练模型：RoBERTa for Chinese

PaperWeekly

57+阅读 · 2019年9月16日

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

AINLP

30+阅读 · 2019年9月8日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

LibRec 精选：推荐系统的常用数据集

LibRec 精选：推荐系统的常用数据集

LibRec智能推荐

17+阅读 · 2019年2月15日

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

泡泡机器人SLAM

11+阅读 · 2019年1月4日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

可解释的CNN

可解释的CNN

CreateAMind

18+阅读 · 2017年10月5日

相关论文

Evaluating ChatGPT's Performance for Multilingual and Emoji-based Hate Speech Detection

Arxiv

0+阅读 · 2023年5月23日

How do languages influence each other? Studying cross-lingual data sharing during LLM fine-tuning

Arxiv

0+阅读 · 2023年5月22日

Automatic Code Summarization via ChatGPT: How Far Are We?

Arxiv

0+阅读 · 2023年5月22日

Knowledge Refinement via Interaction Between Search Engines and Large Language Models

Arxiv

0+阅读 · 2023年5月21日

Comparing Software Developers with ChatGPT: An Empirical Investigation

Arxiv

0+阅读 · 2023年5月19日

TransPimLib: A Library for Efficient Transcendental Functions on Processing-in-Memory Systems

Arxiv

0+阅读 · 2023年5月19日

Environmental Claim Detection

Arxiv

0+阅读 · 2023年5月19日

Towards Expert-Level Medical Question Answering with Large Language Models

Arxiv

26+阅读 · 2023年5月16日

Trust in Human-AI Interaction: Scoping Out Models, Measures, and Methods

Arxiv

22+阅读 · 2022年4月30日

Explainable Deep Learning: A Field Guide for the Uninitiated

Arxiv

51+阅读 · 2021年9月13日

相关基金

以基因功能研究为基础的结直肠癌易感区段10q22.3的精细定位

国家自然科学基金

0+阅读 · 2015年12月31日

“核HO-1”调控miRNA-125a-5p影响血脊髓屏障结构和功能的机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

PPAR β/δ基因在结直肠癌血管生成调控中的作用及分子机理

国家自然科学基金

2+阅读 · 2014年12月31日

重金属胁迫下NO和ROS互作调控盐生植物应答反应的作用机理研究

国家自然科学基金

0+阅读 · 2014年12月31日

人羊水干细胞向功能性汗腺细胞分化及其调控机制的研究

国家自然科学基金

0+阅读 · 2013年12月31日

低氧下白细胞介素-1β在肿瘤相关巨噬细胞介导肝癌上皮间质化中的作用研究

国家自然科学基金

0+阅读 · 2013年12月31日

井下密闭空间爆炸风险动态定量化评估模型

国家自然科学基金

0+阅读 · 2013年12月31日

结直肠癌中TOP2A与ZNF148的竞争性内源性RNA调控机制和功能研究

国家自然科学基金

0+阅读 · 2012年12月31日

酵母RNaseH2磷酸化调控机制及其生理功能的研究

国家自然科学基金

0+阅读 · 2012年12月31日

探索VASH2转录激活对肝细胞癌血管生成和上皮间质转化的作用及机制

国家自然科学基金

0+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员