PSI-Bench: Towards Clinically Grounded and Interpretable Evaluation of Depression Patient Simulators - 专知论文

会员服务 ·

0

基准 · 语言模型 · 交互 · 健康 · 安全约束 ·

PSI-Bench: Towards Clinically Grounded and Interpretable Evaluation of Depression Patient Simulators

翻译：PSI-Bench：面向临床基础与可解释的抑郁症患者模拟器评估框架

Nguyen Khoi Hoang,Shuhaib Mehri,Tse-An Hsu,Yi-Jyun Sun,Quynh Xuan Nguyen Truong,Khoa D Doan,Dilek Hakkani-Tür

Patient simulators are gaining traction in mental health training by providing scalable exposure to complex and sensitive patient interactions. Simulating depressed patients is particularly challenging, as safety constraints and high patient variability complicate simulations and underscore the need for simulators that capture diverse and realistic patient behaviors. However, existing evaluations heavily rely on LLM-judges with poorly specified prompts and do not assess behavioral diversity. We introduce PSI-Bench, an automatic evaluation framework that provides interpretable, clinically grounded diagnostics of depression patient simulator behavior across turn-, dialogue-, and population-level dimensions. Using PSI-Bench, we benchmark seven LLMs across two simulator frameworks and find that simulators produce overly long, lexically diverse responses, show reduced variability, resolve emotions too quickly, and follow a uniform negative-to-positive trajectory. We also show that the simulation framework has a larger impact on fidelity than the model scale. Results from a human study demonstrate that our benchmark is strongly aligned with expert judgments. Our work reveals key limitations of current depression patient simulators and provides an interpretable, extensible benchmark to guide future simulator design and evaluation.

翻译：患者模拟器通过提供可扩展的复杂敏感患者交互体验，在心理健康培训领域日益受到关注。模拟抑郁症患者尤为困难，安全约束与患者异质性不仅使模拟过程更加复杂，更凸显了构建能捕获患者多样化真实行为模拟器的必要性。然而，现有评估方法严重依赖提示词定义模糊的大语言模型评判者，且未评估行为多样性。我们提出PSI-Bench——一个自动评估框架，能在话轮级、对话级和群体级三个维度对抑郁症患者模拟行为进行可解释的、基于临床的诊断。通过PSI-Bench，我们评估了七个大语言模型在两种模拟框架下的表现，发现模拟器产生过长且词汇多样化的回应、行为变异性降低、情绪消解过快，并遵循统一的从消极到积极的变化轨迹。我们还发现模拟框架对保真度的影响大于模型规模。人工研究结果表明，我们的基准与专家判断高度一致。本工作揭示了当前抑郁症患者模拟器的关键局限性，并为指导未来模拟器设计与评估提供了可解释、可扩展的基准。

0

相关内容

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

专知会员服务

79+阅读 · 2022年11月23日

构建基于生物医学文献的抑郁症知识图谱

构建基于生物医学文献的抑郁症知识图谱

专知会员服务

12+阅读 · 2022年11月14日

到底什么是有用的ML可解释性？伯克利郁彬高徒Singh68页博士论文《现实世界的机器学习中有用的可解释性》全面综述可解释性技术

到底什么是有用的ML可解释性？伯克利郁彬高徒Singh68页博士论文《现实世界的机器学习中有用的可解释性》全面综述可解释性技术

专知会员服务

119+阅读 · 2022年5月16日

【AI+军事】附论文+PPT《使用SocialXR来测量社会认知表现，以解决与部署和创伤后生活事件有关的孤立问题》

【AI+军事】附论文+PPT《使用SocialXR来测量社会认知表现，以解决与部署和创伤后生活事件有关的孤立问题》

专知会员服务

18+阅读 · 2022年5月14日

【复旦大学等】情感计算的系统综述:情感模型、数据库及研究进展，A Systematic Review on Affective Computing: Emotion Models, Databases, and Recent Advances

【复旦大学等】情感计算的系统综述:情感模型、数据库及研究进展，A Systematic Review on Affective Computing: Emotion Models, Databases, and Recent Advances

专知会员服务

55+阅读 · 2022年3月17日

【斯坦福博士论文】机器学习的模型解释和数据评估，206页pdf

专知会员服务

128+阅读 · 2021年8月3日

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

专知会员服务

58+阅读 · 2020年5月26日

使用图卷积网络对多药副作用进行建模（Modeling polypharmacy side effects with graph convolutional networks）

使用图卷积网络对多药副作用进行建模（Modeling polypharmacy side effects with graph convolutional networks）

专知会员服务

36+阅读 · 2019年12月12日

【ECML-PKDD 2019】终身PU学习在情感分析中的解构面与观点词（Disentangling Aspect and Opinion Words inSentiment Analysis using Lifelong PU Learning）

【ECML-PKDD 2019】终身PU学习在情感分析中的解构面与观点词（Disentangling Aspect and Opinion Words inSentiment Analysis using Lifelong PU Learning）

专知会员服务

16+阅读 · 2019年12月3日

【AAAI2020论文-清华大学】基于人物稀疏数据的预训练个性化对话生成模型（A Pre-training Based Personalized Dialogue Generation Model with Persona-sparse Data）

【AAAI2020论文-清华大学】基于人物稀疏数据的预训练个性化对话生成模型（A Pre-training Based Personalized Dialogue Generation Model with Persona-sparse Data）

专知会员服务

29+阅读 · 2019年11月15日

多模态情绪识别研究综述

多模态情绪识别研究综述

专知

25+阅读 · 2020年12月21日

Pytorch多模态框架MMF

Pytorch多模态框架MMF

专知

50+阅读 · 2020年6月20日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

专知

78+阅读 · 2019年10月20日

注意力模型深度综述：注意力类型和网络架构都有什么

注意力模型深度综述：注意力类型和网络架构都有什么

机器之心

19+阅读 · 2019年4月10日

苦尽甘来：AI为更有效地治疗抑郁症带来希望

苦尽甘来：AI为更有效地治疗抑郁症带来希望

英伟达NVIDIA中国

10+阅读 · 2018年3月1日

【论文推荐】最新5篇情感分析相关论文—深度学习情感分析综述、情感分析语料库、情感预测性、上下文和位置感知的因子分解模型、LSTM

【论文推荐】最新5篇情感分析相关论文—深度学习情感分析综述、情感分析语料库、情感预测性、上下文和位置感知的因子分解模型、LSTM

专知

55+阅读 · 2018年1月28日

【干货】基于注意力机制的神经匹配模型用于短文本检索

【干货】基于注意力机制的神经匹配模型用于短文本检索

专知

11+阅读 · 2018年1月11日

深度学习中的注意力机制

深度学习中的注意力机制

CSDN大数据

24+阅读 · 2017年11月2日

基于身心共融运动训练的肢体康复机器人多模态反馈方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于个体化定位的经颅磁刺激治疗抑郁症的疗效及脑机制研究

国家自然科学基金

0+阅读 · 2016年12月31日

抑郁症患者及一级亲属奖励与惩罚处理神经机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

海马有髓神经纤维脱髓鞘在抑郁症中的作用

国家自然科学基金

0+阅读 · 2015年12月31日

应用多模态fMRI探讨交泰丸治疗抑郁症患者的脑机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

阈下情绪启动影响正常人及分裂型特质个体情绪判断的神经机制

国家自然科学基金

0+阅读 · 2015年12月31日

儿童期创伤与抑郁症发生的易感性和保护性神经网络机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

精细亚区尺度难治性抑郁症异常神经环路的多模态MRI解析

国家自然科学基金

0+阅读 · 2015年12月31日

Mir124介导柴胡疏肝散调控抑郁症肝郁证模型海马神经可塑性的分子机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

新型统计模型在精神疾病的基因、脑影像和行为数据整合中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

SimEval-IR: A Unified Toolkit and Benchmark Suite for Evaluating User Simulators and Search Sessions

Arxiv

0+阅读 · 4月30日

MHSafeEval: Role-Aware Interaction-Level Evaluation of Mental Health Safety in Large Language Models

Arxiv

0+阅读 · 4月20日

Between Help and Harm: An Evaluation of Mental Health Crisis Handling by LLMs

Arxiv

0+阅读 · 4月8日

CNSocialDepress: A Chinese Social Media Dataset for Depression Risk Detection and Structured Analysis

Arxiv

0+阅读 · 3月26日

OMIND: Framework for Knowledge Grounded Finetuning and Multi-Turn Dialogue Benchmark for Mental Health LLMs

Arxiv

0+阅读 · 3月26日

Advancing AI Trustworthiness Through Patient Simulation: Risk Assessment of Conversational Agents for Antidepressant Selection

Arxiv

0+阅读 · 3月25日

POSIM: A Multi-Agent Simulation Framework for Social Media Public Opinion Evolution and Governance

Arxiv

0+阅读 · 3月25日

Depictions of Depression in Generative AI Video Models: A Preliminary Study of OpenAI's Sora 2

Arxiv

0+阅读 · 3月19日

InterMind: Doctor-Patient-Family Interactive Depression Assessment Empowered by Large Language Models

Arxiv

0+阅读 · 3月9日

TrustMH-Bench: A Comprehensive Benchmark for Evaluating the Trustworthiness of Large Language Models in Mental Health

Arxiv

0+阅读 · 3月3日

VIP会员

文章信息

相关主题

最新内容

美国军方使用的10种反无人机武器（2026年更新）

美国军方使用的10种反无人机武器（2026年更新）

专知会员服务

4+阅读 · 今天4:07

智能技术在战场指挥控制系统中的应用（附中英文版下载）

智能技术在战场指挥控制系统中的应用（附中英文版下载）

专知会员服务

3+阅读 · 今天3:21

北约《俄乌战争经验教训课程指南：25份课程计划》150页

北约《俄乌战争经验教训课程指南：25份课程计划》150页

专知会员服务

6+阅读 · 今天3:03

《不确定性环境下基于智能体框架中实时多机器人任务分配的贝叶斯网络》博士论文

《不确定性环境下基于智能体框架中实时多机器人任务分配的贝叶斯网络》博士论文

专知会员服务

3+阅读 · 今天2:59

首场人工智能战争——俄乌战争（中文版、原文下载）

首场人工智能战争——俄乌战争（中文版、原文下载）

专知会员服务

16+阅读 · 今天1:52

《提升战术级作战规划水平：城市进攻作战中的机动样式研究》

《提升战术级作战规划水平：城市进攻作战中的机动样式研究》

专知会员服务

4+阅读 · 今天1:36

《人员配置对陆军突击清障车与联合突击桥战备状态的影响研究》

《人员配置对陆军突击清障车与联合突击桥战备状态的影响研究》

专知会员服务

2+阅读 · 今天1:28

管理咨询报告：美国国防部量子技术开发与实施评估（译文）

管理咨询报告：美国国防部量子技术开发与实施评估（译文）

专知会员服务

1+阅读 · 今天1:16

【博士论文】可解释人工智能的数学基础与 Bandit 优化的研究进展

【博士论文】可解释人工智能的数学基础与 Bandit 优化的研究进展

专知会员服务

6+阅读 · 5月8日

生成-过滤-控制-重放：LLM强化学习中Rollout策略的全面综述

生成-过滤-控制-重放：LLM强化学习中Rollout策略的全面综述

专知会员服务

3+阅读 · 5月8日

认知战与交战性质的改变：神经战略视角

认知战与交战性质的改变：神经战略视角

专知会员服务

5+阅读 · 5月8日

美国《国防授权法案》指令要求界定“认知战”：区分相关概念

美国《国防授权法案》指令要求界定“认知战”：区分相关概念

专知会员服务

5+阅读 · 5月8日

人工智能对特定国防资源管理流程的影响（万字长文）

人工智能对特定国防资源管理流程的影响（万字长文）

专知会员服务

6+阅读 · 5月8日

《多域作战概念实证检验：美军“史诗怒火”行动中跨域协同的地理空间混合方法分析研究》245页报告

《多域作战概念实证检验：美军“史诗怒火”行动中跨域协同的地理空间混合方法分析研究》245页报告

专知会员服务

10+阅读 · 5月8日

《预设时间的单次协同估计、制导与控制框架：实现同时目标拦截》2026最新40页报告

《预设时间的单次协同估计、制导与控制框架：实现同时目标拦截》2026最新40页报告

专知会员服务

10+阅读 · 5月8日

相关VIP内容

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

专知会员服务

79+阅读 · 2022年11月23日

构建基于生物医学文献的抑郁症知识图谱

构建基于生物医学文献的抑郁症知识图谱

专知会员服务

12+阅读 · 2022年11月14日

到底什么是有用的ML可解释性？伯克利郁彬高徒Singh68页博士论文《现实世界的机器学习中有用的可解释性》全面综述可解释性技术

到底什么是有用的ML可解释性？伯克利郁彬高徒Singh68页博士论文《现实世界的机器学习中有用的可解释性》全面综述可解释性技术

专知会员服务

119+阅读 · 2022年5月16日

【AI+军事】附论文+PPT《使用SocialXR来测量社会认知表现，以解决与部署和创伤后生活事件有关的孤立问题》

【AI+军事】附论文+PPT《使用SocialXR来测量社会认知表现，以解决与部署和创伤后生活事件有关的孤立问题》

专知会员服务

18+阅读 · 2022年5月14日

【复旦大学等】情感计算的系统综述:情感模型、数据库及研究进展，A Systematic Review on Affective Computing: Emotion Models, Databases, and Recent Advances

【复旦大学等】情感计算的系统综述:情感模型、数据库及研究进展，A Systematic Review on Affective Computing: Emotion Models, Databases, and Recent Advances

专知会员服务

55+阅读 · 2022年3月17日

【斯坦福博士论文】机器学习的模型解释和数据评估，206页pdf

专知会员服务

128+阅读 · 2021年8月3日

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

专知会员服务

58+阅读 · 2020年5月26日

使用图卷积网络对多药副作用进行建模（Modeling polypharmacy side effects with graph convolutional networks）

使用图卷积网络对多药副作用进行建模（Modeling polypharmacy side effects with graph convolutional networks）

专知会员服务

36+阅读 · 2019年12月12日

【ECML-PKDD 2019】终身PU学习在情感分析中的解构面与观点词（Disentangling Aspect and Opinion Words inSentiment Analysis using Lifelong PU Learning）

【ECML-PKDD 2019】终身PU学习在情感分析中的解构面与观点词（Disentangling Aspect and Opinion Words inSentiment Analysis using Lifelong PU Learning）

专知会员服务

16+阅读 · 2019年12月3日

【AAAI2020论文-清华大学】基于人物稀疏数据的预训练个性化对话生成模型（A Pre-training Based Personalized Dialogue Generation Model with Persona-sparse Data）

【AAAI2020论文-清华大学】基于人物稀疏数据的预训练个性化对话生成模型（A Pre-training Based Personalized Dialogue Generation Model with Persona-sparse Data）

专知会员服务

29+阅读 · 2019年11月15日

热门VIP内容

开通专知VIP会员享更多权益服务

智能技术在战场指挥控制系统中的应用（附中英文版下载）

《不确定性环境下基于智能体框架中实时多机器人任务分配的贝叶斯网络》博士论文

美国军方使用的10种反无人机武器（2026年更新）

北约《俄乌战争经验教训课程指南：25份课程计划》150页

相关资讯

多模态情绪识别研究综述

多模态情绪识别研究综述

专知

25+阅读 · 2020年12月21日

Pytorch多模态框架MMF

Pytorch多模态框架MMF

专知

50+阅读 · 2020年6月20日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

专知

78+阅读 · 2019年10月20日

注意力模型深度综述：注意力类型和网络架构都有什么

注意力模型深度综述：注意力类型和网络架构都有什么

机器之心

19+阅读 · 2019年4月10日

苦尽甘来：AI为更有效地治疗抑郁症带来希望

苦尽甘来：AI为更有效地治疗抑郁症带来希望

英伟达NVIDIA中国

10+阅读 · 2018年3月1日

【论文推荐】最新5篇情感分析相关论文—深度学习情感分析综述、情感分析语料库、情感预测性、上下文和位置感知的因子分解模型、LSTM

【论文推荐】最新5篇情感分析相关论文—深度学习情感分析综述、情感分析语料库、情感预测性、上下文和位置感知的因子分解模型、LSTM

专知

55+阅读 · 2018年1月28日

【干货】基于注意力机制的神经匹配模型用于短文本检索

【干货】基于注意力机制的神经匹配模型用于短文本检索

专知

11+阅读 · 2018年1月11日

深度学习中的注意力机制

深度学习中的注意力机制

CSDN大数据

24+阅读 · 2017年11月2日

相关论文

SimEval-IR: A Unified Toolkit and Benchmark Suite for Evaluating User Simulators and Search Sessions

Arxiv

0+阅读 · 4月30日

MHSafeEval: Role-Aware Interaction-Level Evaluation of Mental Health Safety in Large Language Models

Arxiv

0+阅读 · 4月20日

Between Help and Harm: An Evaluation of Mental Health Crisis Handling by LLMs

Arxiv

0+阅读 · 4月8日

CNSocialDepress: A Chinese Social Media Dataset for Depression Risk Detection and Structured Analysis

Arxiv

0+阅读 · 3月26日

OMIND: Framework for Knowledge Grounded Finetuning and Multi-Turn Dialogue Benchmark for Mental Health LLMs

Arxiv

0+阅读 · 3月26日

Advancing AI Trustworthiness Through Patient Simulation: Risk Assessment of Conversational Agents for Antidepressant Selection

Arxiv

0+阅读 · 3月25日

POSIM: A Multi-Agent Simulation Framework for Social Media Public Opinion Evolution and Governance

Arxiv

0+阅读 · 3月25日

Depictions of Depression in Generative AI Video Models: A Preliminary Study of OpenAI's Sora 2

Arxiv

0+阅读 · 3月19日

InterMind: Doctor-Patient-Family Interactive Depression Assessment Empowered by Large Language Models

Arxiv

0+阅读 · 3月9日

TrustMH-Bench: A Comprehensive Benchmark for Evaluating the Trustworthiness of Large Language Models in Mental Health

Arxiv

0+阅读 · 3月3日

相关基金

基于身心共融运动训练的肢体康复机器人多模态反馈方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于个体化定位的经颅磁刺激治疗抑郁症的疗效及脑机制研究

国家自然科学基金

0+阅读 · 2016年12月31日

抑郁症患者及一级亲属奖励与惩罚处理神经机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

海马有髓神经纤维脱髓鞘在抑郁症中的作用

国家自然科学基金

0+阅读 · 2015年12月31日

应用多模态fMRI探讨交泰丸治疗抑郁症患者的脑机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

阈下情绪启动影响正常人及分裂型特质个体情绪判断的神经机制

国家自然科学基金

0+阅读 · 2015年12月31日

儿童期创伤与抑郁症发生的易感性和保护性神经网络机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

精细亚区尺度难治性抑郁症异常神经环路的多模态MRI解析

国家自然科学基金

0+阅读 · 2015年12月31日

Mir124介导柴胡疏肝散调控抑郁症肝郁证模型海马神经可塑性的分子机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

新型统计模型在精神疾病的基因、脑影像和行为数据整合中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员