Filling in the Clinical Gaps in Benchmark: Case for HealthBench for the Japanese medical system - 专知论文

会员服务 ·

0

基准 · 日本 · 情境 · 语言模型 · GPT-4 ·

Filling in the Clinical Gaps in Benchmark: Case for HealthBench for the Japanese medical system

翻译：填补临床基准中的空白：日本医疗体系中的HealthBench案例

Shohei Hisada,Endo Sunao,Himi Yamato,Shoko Wakamiya,Eiji Aramaki

from arxiv, draft v0.3 Code and analysis data is available at https://zenodo.org/records/17405321

This study investigates the applicability of HealthBench, a large-scale, rubric-based medical benchmark, to the Japanese context. Although robust evaluation frameworks are essential for the safe development of medical LLMs, resources in Japanese are scarce and often consist of translated multiple-choice questions. Our research addresses this issue in two ways. First, we establish a performance baseline by applying a machine-translated version of HealthBench's 5,000 scenarios to evaluate two models: a high-performing multilingual model (GPT-4.1) and a Japanese-native open-source model (LLM-jp-3.1). Secondly, we use an LLM-as-a-Judge approach to systematically classify the benchmark's scenarios and rubric criteria. This allows us to identify 'contextual gaps' where the content is misaligned with Japan's clinical guidelines, healthcare systems or cultural norms. Our findings reveal a modest performance drop in GPT-4.1 due to rubric mismatches, as well as a significant failure in the Japanese-native model, which lacked the required clinical completeness. Furthermore, our classification shows that, despite most scenarios being applicable, a significant proportion of the rubric criteria require localisation. This work underscores the limitations of direct benchmark translation and highlights the urgent need for a context-aware, localised adaptation, a "J-HealthBench", to ensure the reliable and safe evaluation of medical LLMs in Japan.

翻译：本研究探讨了HealthBench（一种基于评分标准的大规模医学基准）在日本背景下的适用性。尽管稳健的评估框架对于医疗大语言模型的安全发展至关重要，但日语资源稀缺，且通常由翻译的多选题构成。我们的研究通过两种方式解决这一问题。首先，我们通过应用机器翻译版的HealthBench 5,000个场景来建立性能基线，评估了两个模型：一个高性能多语言模型（GPT-4.1）和一个日语原生开源模型（LLM-jp-3.1）。其次，我们采用LLM-as-a-Judge方法系统分类基准的场景和评分标准。这使得我们能够识别出内容与日本临床指南、医疗体系或文化规范不匹配的“情境差距”。我们的研究结果显示，由于评分标准不匹配，GPT-4.1的性能略有下降，而日语原生模型则因缺乏必要的临床完整性而出现显著失败。此外，我们的分类表明，尽管大多数场景适用，但相当一部分评分标准需要本地化。这项工作强调了直接翻译基准的局限性，并凸显了迫切需要一个情境感知的本地化适配版本——“J-HealthBench”，以确保在日本可靠且安全地评估医疗大语言模型。

0

相关内容

医学领域大型语言模型的新进展

医学领域大型语言模型的新进展

专知会员服务

25+阅读 · 2025年10月5日

利用表示学习推动多机构电子健康记录数据研究

利用表示学习推动多机构电子健康记录数据研究

专知会员服务

16+阅读 · 2025年2月17日

基础模型促进医疗保健：挑战、机遇与未来发展方向

基础模型促进医疗保健：挑战、机遇与未来发展方向

专知会员服务

32+阅读 · 2024年4月5日

LLM in Medical Domain: 大语言模型在医学领域的应用

LLM in Medical Domain: 大语言模型在医学领域的应用

专知会员服务

103+阅读 · 2023年6月17日

《用于医疗数据的分析和机器学习》佐治亚理工学院137页博士论文

《用于医疗数据的分析和机器学习》佐治亚理工学院137页博士论文

专知会员服务

26+阅读 · 2022年7月21日

最新50页结构健康监测综述论文，《机器学习和结构健康监测（SHM）技术综述：新兴技术和高维数据源》，土耳其中东理工大学、剑桥大学等机构

最新50页结构健康监测综述论文，《机器学习和结构健康监测（SHM）技术综述：新兴技术和高维数据源》，土耳其中东理工大学、剑桥大学等机构

专知会员服务

35+阅读 · 2022年4月11日

《信息安全技术健康医疗数据安全指南》国家标准，70页pdf

《信息安全技术健康医疗数据安全指南》国家标准，70页pdf

专知会员服务

104+阅读 · 2022年3月4日

医疗健康领域的短文本理解

医疗健康领域的短文本理解

专知会员服务

33+阅读 · 2021年1月2日

【优化基准：最佳实践，54页pdf】Benchmarking in Optimization: Best Practice and Open Issues

【优化基准：最佳实践，54页pdf】Benchmarking in Optimization: Best Practice and Open Issues

专知会员服务

25+阅读 · 2020年7月28日

【2020关键词提取】医学报告的关键词提取和结构化，Keyword extraction and structuralization of medical reports

【2020关键词提取】医学报告的关键词提取和结构化，Keyword extraction and structuralization of medical reports

专知会员服务

33+阅读 · 2020年5月2日

不可错过！斯坦福《人工智能医学健康》课程，全面阐述AI在医学的应用，附Slides

不可错过！斯坦福《人工智能医学健康》课程，全面阐述AI在医学的应用，附Slides

专知

11+阅读 · 2022年10月24日

哈佛大学｜构建知识图谱PrimeKG以实现精准医疗--数据与代码全部公开，帮你从零开始复现知识图谱

哈佛大学｜构建知识图谱PrimeKG以实现精准医疗--数据与代码全部公开，帮你从零开始复现知识图谱

GenomicAI

29+阅读 · 2022年5月4日

MIT最新博士论文《用于个性化医疗和保险的新型机器学习算法》，350页pdf

MIT最新博士论文《用于个性化医疗和保险的新型机器学习算法》，350页pdf

专知

10+阅读 · 2022年5月2日

医疗健康领域的短文本解析探索----文本纠错

医疗健康领域的短文本解析探索----文本纠错

深度学习自然语言处理

10+阅读 · 2020年8月5日

对话管理的综述论文:最近的进展和挑战，A Survey on Dialog Management

对话管理的综述论文:最近的进展和挑战，A Survey on Dialog Management

专知

12+阅读 · 2020年5月14日

医疗中的自动机器学习和可解释性

医疗中的自动机器学习和可解释性

专知

24+阅读 · 2019年4月1日

赛尔原创 | ACM BCB 2018 CausalTriad: 从医学文本数据中推断出新的因果关系假设

赛尔原创 | ACM BCB 2018 CausalTriad: 从医学文本数据中推断出新的因果关系假设

哈工大SCIR

14+阅读 · 2018年6月28日

论文浅尝 | Improved Neural Relation Detection for KBQA

论文浅尝 | Improved Neural Relation Detection for KBQA

开放知识图谱

13+阅读 · 2018年1月21日

基于位置注意力机制模型和带标签数据来提升槽填充（EMNLP outstanding paper）

基于位置注意力机制模型和带标签数据来提升槽填充（EMNLP outstanding paper）

科技创新与创业

17+阅读 · 2017年11月17日

下载 ‖ 十大医疗数据集

下载 ‖ 十大医疗数据集

机械鸡

103+阅读 · 2017年8月5日

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

基于多主题和网络模型的社交媒体电子医疗用户推荐研究

国家自然科学基金

2+阅读 · 2015年12月31日

大型复杂医学领域本体质量评估理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于EHR结构模型和DCM的医学术语协同化方法研究

国家自然科学基金

4+阅读 · 2014年12月31日

医疗健康网站信息可信度与质量控制研究

国家自然科学基金

0+阅读 · 2014年12月31日

健康大数据的建立及其在知识发现和个体化移动健康管理的研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于公立医院动态人本化管理的医患冲突预警和干预模式构建

国家自然科学基金

1+阅读 · 2014年12月31日

基于透明的医源性感染指标测量的基准研究

国家自然科学基金

0+阅读 · 2014年12月31日

康复设施空间与环境的设计模式研究——基于疾病种类及治疗阶段的视角

国家自然科学基金

0+阅读 · 2014年12月31日

健康行为中的跨期决策研究--基于资源匮乏理论视角

国家自然科学基金

0+阅读 · 2014年12月31日

ClinAlign: Scaling Healthcare Alignment from Clinician Preference

Arxiv

0+阅读 · 2月10日

MedErrBench: A Fine-Grained Multilingual Benchmark for Medical Error Detection and Correction with Clinical Expert Annotations

Arxiv

0+阅读 · 2月5日

Health-SCORE: Towards Scalable Rubrics for Improving Health-LLMs

Arxiv

0+阅读 · 1月26日

CliniBench: A Clinical Outcome Prediction Benchmark for Generative and Encoder-Based Language Models

Arxiv

0+阅读 · 1月26日

Overalignment in Frontier LLMs: An Empirical Study of Sycophantic Behaviour in Healthcare

Arxiv

0+阅读 · 1月26日

MEDIC: Comprehensive Evaluation of Leading Indicators for LLM Safety and Utility in Clinical Applications

Arxiv

0+阅读 · 1月26日

Mind the Gap: Benchmarking LLM Uncertainty and Calibration with Specialty-Aware Clinical QA and Reasoning-Based Behavioural Features

Arxiv

0+阅读 · 1月25日

Health-ORSC-Bench: A Benchmark for Measuring Over-Refusal and Safety Completion in Health Context

Arxiv

0+阅读 · 1月25日

Bridging the Knowledge-Action Gap by Evaluating LLMs in Dynamic Dental Clinical Scenarios

Arxiv

0+阅读 · 1月19日

Lost in Benchmarks? Rethinking Large Language Model Benchmarking with Item Response Theory

Arxiv

0+阅读 · 1月16日

VIP会员

文章信息

相关主题

最新内容

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

专知会员服务

1+阅读 · 40分钟前

加拿大国防部发布项目需求：用于高级态势决策的多模态人工智能

加拿大国防部发布项目需求：用于高级态势决策的多模态人工智能

专知会员服务

1+阅读 · 44分钟前

《无人机革命：来自俄乌战场的启示》（报告）

《无人机革命：来自俄乌战场的启示》（报告）

专知会员服务

2+阅读 · 50分钟前

《实现联合作战能力所需的技术》58页报告

《实现联合作战能力所需的技术》58页报告

专知会员服务

1+阅读 · 今天6:30

《算法化目标定位：人工智能在以色列加沙打击行动中的作用及其伦理影响》（中文版）

《算法化目标定位：人工智能在以色列加沙打击行动中的作用及其伦理影响》（中文版）

专知会员服务

1+阅读 · 今天6:22

以色列运用人工智能优化空袭警报系统

以色列运用人工智能优化空袭警报系统

专知会员服务

0+阅读 · 今天6:20

以色列在多条战线部署AI智能体

以色列在多条战线部署AI智能体

专知会员服务

1+阅读 · 今天6:12

《将形式化方法工具应用于电子战代码库（经验报告）》

《将形式化方法工具应用于电子战代码库（经验报告）》

专知会员服务

1+阅读 · 今天6:09

2025年大语言模型进展报告

2025年大语言模型进展报告

专知会员服务

13+阅读 · 4月25日

多智能体协作机制

多智能体协作机制

专知会员服务

12+阅读 · 4月25日

非对称优势：美海军开发低成本反无人机技术

非对称优势：美海军开发低成本反无人机技术

专知会员服务

9+阅读 · 4月25日

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

专知会员服务

19+阅读 · 4月25日

《美战争部小企业创新研究（SBIR）计划》

《美战争部小企业创新研究（SBIR）计划》

专知会员服务

8+阅读 · 4月25日

《军事模拟：将军事条令与目标融入AI智能体》

《军事模拟：将军事条令与目标融入AI智能体》

专知会员服务

12+阅读 · 4月25日

【NTU博士论文】3D人体动作生成

【NTU博士论文】3D人体动作生成

专知会员服务

9+阅读 · 4月24日

相关VIP内容

医学领域大型语言模型的新进展

医学领域大型语言模型的新进展

专知会员服务

25+阅读 · 2025年10月5日

利用表示学习推动多机构电子健康记录数据研究

利用表示学习推动多机构电子健康记录数据研究

专知会员服务

16+阅读 · 2025年2月17日

基础模型促进医疗保健：挑战、机遇与未来发展方向

基础模型促进医疗保健：挑战、机遇与未来发展方向

专知会员服务

32+阅读 · 2024年4月5日

LLM in Medical Domain: 大语言模型在医学领域的应用

LLM in Medical Domain: 大语言模型在医学领域的应用

专知会员服务

103+阅读 · 2023年6月17日

《用于医疗数据的分析和机器学习》佐治亚理工学院137页博士论文

《用于医疗数据的分析和机器学习》佐治亚理工学院137页博士论文

专知会员服务

26+阅读 · 2022年7月21日

最新50页结构健康监测综述论文，《机器学习和结构健康监测（SHM）技术综述：新兴技术和高维数据源》，土耳其中东理工大学、剑桥大学等机构

最新50页结构健康监测综述论文，《机器学习和结构健康监测（SHM）技术综述：新兴技术和高维数据源》，土耳其中东理工大学、剑桥大学等机构

专知会员服务

35+阅读 · 2022年4月11日

《信息安全技术健康医疗数据安全指南》国家标准，70页pdf

《信息安全技术健康医疗数据安全指南》国家标准，70页pdf

专知会员服务

104+阅读 · 2022年3月4日

医疗健康领域的短文本理解

医疗健康领域的短文本理解

专知会员服务

33+阅读 · 2021年1月2日

【优化基准：最佳实践，54页pdf】Benchmarking in Optimization: Best Practice and Open Issues

【优化基准：最佳实践，54页pdf】Benchmarking in Optimization: Best Practice and Open Issues

专知会员服务

25+阅读 · 2020年7月28日

【2020关键词提取】医学报告的关键词提取和结构化，Keyword extraction and structuralization of medical reports

【2020关键词提取】医学报告的关键词提取和结构化，Keyword extraction and structuralization of medical reports

专知会员服务

33+阅读 · 2020年5月2日

热门VIP内容

开通专知VIP会员享更多权益服务

加拿大国防部发布项目需求：用于高级态势决策的多模态人工智能

《实现联合作战能力所需的技术》58页报告

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

《无人机革命：来自俄乌战场的启示》（报告）

相关资讯

不可错过！斯坦福《人工智能医学健康》课程，全面阐述AI在医学的应用，附Slides

不可错过！斯坦福《人工智能医学健康》课程，全面阐述AI在医学的应用，附Slides

专知

11+阅读 · 2022年10月24日

哈佛大学｜构建知识图谱PrimeKG以实现精准医疗--数据与代码全部公开，帮你从零开始复现知识图谱

哈佛大学｜构建知识图谱PrimeKG以实现精准医疗--数据与代码全部公开，帮你从零开始复现知识图谱

GenomicAI

29+阅读 · 2022年5月4日

MIT最新博士论文《用于个性化医疗和保险的新型机器学习算法》，350页pdf

MIT最新博士论文《用于个性化医疗和保险的新型机器学习算法》，350页pdf

专知

10+阅读 · 2022年5月2日

医疗健康领域的短文本解析探索----文本纠错

医疗健康领域的短文本解析探索----文本纠错

深度学习自然语言处理

10+阅读 · 2020年8月5日

对话管理的综述论文:最近的进展和挑战，A Survey on Dialog Management

对话管理的综述论文:最近的进展和挑战，A Survey on Dialog Management

专知

12+阅读 · 2020年5月14日

医疗中的自动机器学习和可解释性

医疗中的自动机器学习和可解释性

专知

24+阅读 · 2019年4月1日

赛尔原创 | ACM BCB 2018 CausalTriad: 从医学文本数据中推断出新的因果关系假设

赛尔原创 | ACM BCB 2018 CausalTriad: 从医学文本数据中推断出新的因果关系假设

哈工大SCIR

14+阅读 · 2018年6月28日

论文浅尝 | Improved Neural Relation Detection for KBQA

论文浅尝 | Improved Neural Relation Detection for KBQA

开放知识图谱

13+阅读 · 2018年1月21日

基于位置注意力机制模型和带标签数据来提升槽填充（EMNLP outstanding paper）

基于位置注意力机制模型和带标签数据来提升槽填充（EMNLP outstanding paper）

科技创新与创业

17+阅读 · 2017年11月17日

下载 ‖ 十大医疗数据集

下载 ‖ 十大医疗数据集

机械鸡

103+阅读 · 2017年8月5日

相关论文

ClinAlign: Scaling Healthcare Alignment from Clinician Preference

Arxiv

0+阅读 · 2月10日

MedErrBench: A Fine-Grained Multilingual Benchmark for Medical Error Detection and Correction with Clinical Expert Annotations

Arxiv

0+阅读 · 2月5日

Health-SCORE: Towards Scalable Rubrics for Improving Health-LLMs

Arxiv

0+阅读 · 1月26日

CliniBench: A Clinical Outcome Prediction Benchmark for Generative and Encoder-Based Language Models

Arxiv

0+阅读 · 1月26日

Overalignment in Frontier LLMs: An Empirical Study of Sycophantic Behaviour in Healthcare

Arxiv

0+阅读 · 1月26日

MEDIC: Comprehensive Evaluation of Leading Indicators for LLM Safety and Utility in Clinical Applications

Arxiv

0+阅读 · 1月26日

Mind the Gap: Benchmarking LLM Uncertainty and Calibration with Specialty-Aware Clinical QA and Reasoning-Based Behavioural Features

Arxiv

0+阅读 · 1月25日

Health-ORSC-Bench: A Benchmark for Measuring Over-Refusal and Safety Completion in Health Context

Arxiv

0+阅读 · 1月25日

Bridging the Knowledge-Action Gap by Evaluating LLMs in Dynamic Dental Clinical Scenarios

Arxiv

0+阅读 · 1月19日

Lost in Benchmarks? Rethinking Large Language Model Benchmarking with Item Response Theory

Arxiv

0+阅读 · 1月16日

相关基金

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

基于多主题和网络模型的社交媒体电子医疗用户推荐研究

国家自然科学基金

2+阅读 · 2015年12月31日

大型复杂医学领域本体质量评估理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于EHR结构模型和DCM的医学术语协同化方法研究

国家自然科学基金

4+阅读 · 2014年12月31日

医疗健康网站信息可信度与质量控制研究

国家自然科学基金

0+阅读 · 2014年12月31日

健康大数据的建立及其在知识发现和个体化移动健康管理的研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于公立医院动态人本化管理的医患冲突预警和干预模式构建

国家自然科学基金

1+阅读 · 2014年12月31日

基于透明的医源性感染指标测量的基准研究

国家自然科学基金

0+阅读 · 2014年12月31日

康复设施空间与环境的设计模式研究——基于疾病种类及治疗阶段的视角

国家自然科学基金

0+阅读 · 2014年12月31日

健康行为中的跨期决策研究--基于资源匮乏理论视角

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员