Human or LLM as Standardized Patients? A Comparative Study for Medical Education - 专知论文

会员服务 ·

0

大语言模型 · 不稳定 · 相分离 · 人类表现 · 基准 ·

Human or LLM as Standardized Patients? A Comparative Study for Medical Education

翻译：人类还是LLM作为标准化病人？医学教育的比较研究

Bingquan Zhang,Xiaoxiao Liu,Yuchi Wang,Lei Zhou,Qianqian Xie,Benyou Wang

from arxiv, 24 pages, 13 figures, 10 table

Standardized patients (SPs) are indispensable for clinical skills training but remain expensive and difficult to scale. Although large language model (LLM)-based virtual standardized patients (VSPs) have been proposed as an alternative, their behavior remains unstable and lacks rigorous comparison with human standardized patients. We propose EasyMED, a multi-agent VSP framework that separates case-grounded information disclosure from response generation to support stable, inquiry-conditioned patient behavior. We also introduce SPBench, a human-grounded benchmark with eight expert-defined criteria for interaction-level evaluation. Experiments show that EasyMED more closely matches human SP behavior than existing VSPs, particularly in case consistency and controlled disclosure. A four-week controlled study further demonstrates learning outcomes comparable to human SP training, with stronger early gains for novice learners and improved flexibility, psychological safety, and cost efficiency.

翻译：标准化病人在临床技能培训中不可或缺，但成本高昂且难以规模化。尽管基于大语言模型的虚拟标准化病人已被提出作为替代方案，但其行为仍不稳定，且缺乏与人类标准化病人的严格比较。我们提出EasyMED——一种多智能体虚拟标准化病人框架，该框架将基于病例的信息披露与应答生成相分离，以支持稳定且基于问诊条件触发的病人行为。我们还引入了SPBench，这是一个基于人类表现的基准测试，包含八个专家定义的交互层面评估标准。实验表明，与现有虚拟标准化病人相比，EasyMED的行为更接近人类标准化病人，尤其在病例一致性和可控信息披露方面。一项为期四周的对照研究进一步表明，其训练效果与人类标准化病人培训相当，对新手学员早期学习效果提升更显著，并具备更强的灵活性、心理安全性和成本效益。

0

相关内容

大语言模型

大语言模型

大语言模型是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本，还能够深入理解文本含义，处理各种自然语言任务，如文本摘要、问答、翻译等。2023年，大语言模型及其在人工智能领域的应用已成为全球科技研究的热点，其在规模上的增长尤为引人注目，参数量已从最初的十几亿跃升到如今的一万亿。参数量的提升使得模型能够更加精细地捕捉人类语言微妙之处，更加深入地理解人类语言的复杂性。在过去的一年里，大语言模型在吸纳新知识、分解复杂任务以及图文对齐等多方面都有显著提升。随着技术的不断成熟，它将不断拓展其应用范围，为人类提供更加智能化和个性化的服务，进一步改善人们的生活和生产方式。

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

专知会员服务

47+阅读 · 2025年7月16日

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

专知会员服务

56+阅读 · 2025年3月16日

【ICLR2025】LLMS能否识别您的偏好？评估LLMS中的个性化偏好遵循能力

【ICLR2025】LLMS能否识别您的偏好？评估LLMS中的个性化偏好遵循能力

专知会员服务

14+阅读 · 2025年2月14日

《医疗领域中的具身人工智能综述：技术、应用与机会》

《医疗领域中的具身人工智能综述：技术、应用与机会》

专知会员服务

29+阅读 · 2025年1月14日

《以人为中心的大型语言模型（LLM）研究综述》

《以人为中心的大型语言模型（LLM）研究综述》

专知会员服务

41+阅读 · 2024年11月25日

国家标准意见稿《信息技术神经网络表示与模型压缩第2 部分：大规模预训练模型》

国家标准意见稿《信息技术神经网络表示与模型压缩第2 部分：大规模预训练模型》

专知会员服务

33+阅读 · 2024年11月1日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

微软最新ACL2023教程《关于多语言LLM你需要知道的一切:面向世界语言的公平，高性能和可靠的模型》，144页ppt

微软最新ACL2023教程《关于多语言LLM你需要知道的一切:面向世界语言的公平，高性能和可靠的模型》，144页ppt

专知会员服务

57+阅读 · 2023年7月11日

LLM in Medical Domain: 大语言模型在医学领域的应用

LLM in Medical Domain: 大语言模型在医学领域的应用

专知会员服务

103+阅读 · 2023年6月17日

精准医疗、人工智能和个性化医疗的未来，美国范德堡大学等撰述

精准医疗、人工智能和个性化医疗的未来，美国范德堡大学等撰述

专知会员服务

66+阅读 · 2022年6月25日

不可错过！斯坦福《人工智能医学健康》课程，全面阐述AI在医学的应用，附Slides

不可错过！斯坦福《人工智能医学健康》课程，全面阐述AI在医学的应用，附Slides

专知

11+阅读 · 2022年10月24日

虚拟数字人发展白皮书，37页pdf

虚拟数字人发展白皮书，37页pdf

专知

10+阅读 · 2022年2月16日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

医疗中的自动机器学习和可解释性

医疗中的自动机器学习和可解释性

专知

24+阅读 · 2019年4月1日

【重磅】《人工智能标准化白皮书（2018）》发布（完整版）

【重磅】《人工智能标准化白皮书（2018）》发布（完整版）

中国自动化学会

11+阅读 · 2018年1月19日

业界 | 中国《人工智能标准化白皮书2018》发布完整版（附下载）

业界 | 中国《人工智能标准化白皮书2018》发布完整版（附下载）

机器之心

15+阅读 · 2018年1月19日

【重磅】《人工智能标准化白皮书（2018）》发布（完整版）（附下载链接）

【重磅】《人工智能标准化白皮书（2018）》发布（完整版）（附下载链接）

专知

21+阅读 · 2018年1月18日

【智能医疗】【知识图谱】中文电子病历命名实体识别的主动学习方法 | 病历智能分析系统的研究与实现 | 临床路径知识建模研究

【智能医疗】【知识图谱】中文电子病历命名实体识别的主动学习方法 | 病历智能分析系统的研究与实现 | 临床路径知识建模研究

产业智能官

29+阅读 · 2017年12月10日

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

大型复杂医学领域本体质量评估理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

医生工作生态视角下的分级诊疗机制建模与实证研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于EHR结构模型和DCM的医学术语协同化方法研究

国家自然科学基金

4+阅读 · 2014年12月31日

基于多模态脑影像处理和多维可视化的辅助诊疗技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

MSM人群中HIV感染者生命质量评价及预警模型研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于多模态医学图像处理的多维可视化辅助诊疗关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

大脑影像标准化的优化模型与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

"It Talks Like a Patient, But Feels Different": Co-Designing AI Standardized Patients with Medical Learners

Arxiv

0+阅读 · 2月5日

LLMs as Span Annotators: A Comparative Study of LLMs and Humans

Arxiv

0+阅读 · 2月2日

HumanLLM: Benchmarking and Improving LLM Anthropomorphism via Human Cognitive Patterns

Arxiv

0+阅读 · 1月30日

CaseMaster: Designing and Evaluating a Probe for Oral Case Presentation Training with LLM Assistance

Arxiv

0+阅读 · 1月27日

MEDIC: Comprehensive Evaluation of Leading Indicators for LLM Safety and Utility in Clinical Applications

Arxiv

0+阅读 · 1月26日

LLM is Not All You Need: A Systematic Evaluation of ML vs. Foundation Models for text and image based Medical Classification

Arxiv

0+阅读 · 1月23日

HumanLLM: Towards Personalized Understanding and Simulation of Human Nature

Arxiv

0+阅读 · 1月22日

MedSimAI: Simulation and Formative Feedback Generation to Enhance Deliberate Practice in Medical Education

Arxiv

0+阅读 · 1月22日

LLM or Human? Perceptions of Trust and Information Quality in Research Summaries

Arxiv

0+阅读 · 1月22日

HUMANLLM: Benchmarking and Reinforcing LLM Anthropomorphism via Human Cognitive Patterns

Arxiv

0+阅读 · 1月15日

VIP会员

文章信息

相关主题

大语言模型

最新内容

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

专知会员服务

0+阅读 · 17分钟前

《量化反无人机系统对抗无人机蜂群效能的创新方法》

《量化反无人机系统对抗无人机蜂群效能的创新方法》

专知会员服务

1+阅读 · 19分钟前

澳大利亚发布《国防战略（2026年）》

澳大利亚发布《国防战略（2026年）》

专知会员服务

0+阅读 · 30分钟前

【CMU博士论文】迈向基于基础先验的 4D 感知研究

【CMU博士论文】迈向基于基础先验的 4D 感知研究

专知会员服务

0+阅读 · 26分钟前

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

专知会员服务

0+阅读 · 29分钟前

全球高超音速武器最新发展趋势

全球高超音速武器最新发展趋势

专知会员服务

0+阅读 · 55分钟前

《利用大语言模型增强多域作战兵棋推演》（报告）

《利用大语言模型增强多域作战兵棋推演》（报告）

专知会员服务

10+阅读 · 4月18日

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

专知会员服务

9+阅读 · 4月18日

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

专知会员服务

8+阅读 · 4月18日

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

专知会员服务

14+阅读 · 4月18日

美智库《实现空军战斗出动架次生成能力：对目标、差距、障碍与解决方案的审视》（报告）

美智库《实现空军战斗出动架次生成能力：对目标、差距、障碍与解决方案的审视》（报告）

专知会员服务

7+阅读 · 4月18日

《大规模作战行动中争夺情报优势：情报与电子战营-下一代角色探析》（报告）

《大规模作战行动中争夺情报优势：情报与电子战营-下一代角色探析》（报告）

专知会员服务

9+阅读 · 4月18日

人工智能在战场行动中的演进及伊朗案例

人工智能在战场行动中的演进及伊朗案例

专知会员服务

7+阅读 · 4月18日

美AI公司Anthropic推出网络安全模型“Mythos”

美AI公司Anthropic推出网络安全模型“Mythos”

专知会员服务

4+阅读 · 4月18日

【博士论文】面向城市环境的可解释计算机视觉

【博士论文】面向城市环境的可解释计算机视觉

专知会员服务

5+阅读 · 4月18日

相关VIP内容

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

专知会员服务

47+阅读 · 2025年7月16日

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

专知会员服务

56+阅读 · 2025年3月16日

【ICLR2025】LLMS能否识别您的偏好？评估LLMS中的个性化偏好遵循能力

【ICLR2025】LLMS能否识别您的偏好？评估LLMS中的个性化偏好遵循能力

专知会员服务

14+阅读 · 2025年2月14日

《医疗领域中的具身人工智能综述：技术、应用与机会》

《医疗领域中的具身人工智能综述：技术、应用与机会》

专知会员服务

29+阅读 · 2025年1月14日

《以人为中心的大型语言模型（LLM）研究综述》

《以人为中心的大型语言模型（LLM）研究综述》

专知会员服务

41+阅读 · 2024年11月25日

国家标准意见稿《信息技术神经网络表示与模型压缩第2 部分：大规模预训练模型》

国家标准意见稿《信息技术神经网络表示与模型压缩第2 部分：大规模预训练模型》

专知会员服务

33+阅读 · 2024年11月1日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

微软最新ACL2023教程《关于多语言LLM你需要知道的一切:面向世界语言的公平，高性能和可靠的模型》，144页ppt

微软最新ACL2023教程《关于多语言LLM你需要知道的一切:面向世界语言的公平，高性能和可靠的模型》，144页ppt

专知会员服务

57+阅读 · 2023年7月11日

LLM in Medical Domain: 大语言模型在医学领域的应用

LLM in Medical Domain: 大语言模型在医学领域的应用

专知会员服务

103+阅读 · 2023年6月17日

精准医疗、人工智能和个性化医疗的未来，美国范德堡大学等撰述

精准医疗、人工智能和个性化医疗的未来，美国范德堡大学等撰述

专知会员服务

66+阅读 · 2022年6月25日

热门VIP内容

开通专知VIP会员享更多权益服务

澳大利亚发布《国防战略（2026年）》

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

《量化反无人机系统对抗无人机蜂群效能的创新方法》

【CMU博士论文】迈向基于基础先验的 4D 感知研究

相关资讯

不可错过！斯坦福《人工智能医学健康》课程，全面阐述AI在医学的应用，附Slides

不可错过！斯坦福《人工智能医学健康》课程，全面阐述AI在医学的应用，附Slides

专知

11+阅读 · 2022年10月24日

虚拟数字人发展白皮书，37页pdf

虚拟数字人发展白皮书，37页pdf

专知

10+阅读 · 2022年2月16日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

医疗中的自动机器学习和可解释性

医疗中的自动机器学习和可解释性

专知

24+阅读 · 2019年4月1日

【重磅】《人工智能标准化白皮书（2018）》发布（完整版）

【重磅】《人工智能标准化白皮书（2018）》发布（完整版）

中国自动化学会

11+阅读 · 2018年1月19日

业界 | 中国《人工智能标准化白皮书2018》发布完整版（附下载）

业界 | 中国《人工智能标准化白皮书2018》发布完整版（附下载）

机器之心

15+阅读 · 2018年1月19日

【重磅】《人工智能标准化白皮书（2018）》发布（完整版）（附下载链接）

【重磅】《人工智能标准化白皮书（2018）》发布（完整版）（附下载链接）

专知

21+阅读 · 2018年1月18日

【智能医疗】【知识图谱】中文电子病历命名实体识别的主动学习方法 | 病历智能分析系统的研究与实现 | 临床路径知识建模研究

【智能医疗】【知识图谱】中文电子病历命名实体识别的主动学习方法 | 病历智能分析系统的研究与实现 | 临床路径知识建模研究

产业智能官

29+阅读 · 2017年12月10日

相关论文

"It Talks Like a Patient, But Feels Different": Co-Designing AI Standardized Patients with Medical Learners

Arxiv

0+阅读 · 2月5日

LLMs as Span Annotators: A Comparative Study of LLMs and Humans

Arxiv

0+阅读 · 2月2日

HumanLLM: Benchmarking and Improving LLM Anthropomorphism via Human Cognitive Patterns

Arxiv

0+阅读 · 1月30日

CaseMaster: Designing and Evaluating a Probe for Oral Case Presentation Training with LLM Assistance

Arxiv

0+阅读 · 1月27日

MEDIC: Comprehensive Evaluation of Leading Indicators for LLM Safety and Utility in Clinical Applications

Arxiv

0+阅读 · 1月26日

LLM is Not All You Need: A Systematic Evaluation of ML vs. Foundation Models for text and image based Medical Classification

Arxiv

0+阅读 · 1月23日

HumanLLM: Towards Personalized Understanding and Simulation of Human Nature

Arxiv

0+阅读 · 1月22日

MedSimAI: Simulation and Formative Feedback Generation to Enhance Deliberate Practice in Medical Education

Arxiv

0+阅读 · 1月22日

LLM or Human? Perceptions of Trust and Information Quality in Research Summaries

Arxiv

0+阅读 · 1月22日

HUMANLLM: Benchmarking and Reinforcing LLM Anthropomorphism via Human Cognitive Patterns

Arxiv

0+阅读 · 1月15日

相关基金

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

大型复杂医学领域本体质量评估理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

医生工作生态视角下的分级诊疗机制建模与实证研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于EHR结构模型和DCM的医学术语协同化方法研究

国家自然科学基金

4+阅读 · 2014年12月31日

基于多模态脑影像处理和多维可视化的辅助诊疗技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

MSM人群中HIV感染者生命质量评价及预警模型研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于多模态医学图像处理的多维可视化辅助诊疗关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

大脑影像标准化的优化模型与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员