The escalating global mental health crisis, marked by persistent treatment gaps, availability, and a shortage of qualified therapists, positions Large Language Models (LLMs) as a promising avenue for scalable support. While LLMs offer potential for accessible emotional assistance, their reliability, therapeutic relevance, and alignment with human standards remain challenging to address. This paper introduces a human-grounded evaluation methodology designed to assess LLM generated responses in therapeutic dialogue. Our approach involved curating a dataset of 500 mental health conversations from datasets with real-world scenario questions and evaluating the responses generated by nine diverse LLMs, including closed source and open source models. More specifically, these responses were evaluated by two psychiatric trained experts, who independently rated each on a 5 point Likert scale across a comprehensive 6 attribute rubric. This rubric captures Cognitive Support and Affective Resonance, providing a multidimensional perspective on therapeutic quality. Our analysis reveals that LLMs provide strong cognitive reliability by producing safe, coherent, and clinically appropriate information, but they demonstrate unstable affective alignment. Although closed source models (e.g., GPT-4o) offer balanced therapeutic responses, open source models show greater variability and emotional flatness. We reveal a persistent cognitive-affective gap and highlight the need for failure aware, clinically grounded evaluation frameworks that prioritize relational sensitivity alongside informational accuracy in mental health oriented LLMs. We advocate for balanced evaluation protocols with human in the loop that center on therapeutic sensitivity and provide a framework to guide the responsible design and clinical oversight of mental health oriented conversational AI.


翻译:全球心理健康危机持续加剧,其标志性特征包括长期存在的治疗缺口、资源可及性不足以及合格治疗师短缺,这使得大语言模型成为可扩展心理支持的重要潜在途径。尽管大语言模型为获取情感支持提供了可能性,但其可靠性、治疗相关性以及与人类标准的契合度仍是亟待解决的挑战。本文提出一种基于人工评估的方法论,旨在评估治疗性对话中大语言模型生成的响应。我们通过整理包含真实场景问题的数据集中500段心理健康对话构建评估数据集,并对九种不同类型的大语言模型(包括闭源与开源模型)生成的响应进行系统评估。具体而言,由两位经过精神病学培训的专家采用包含6个维度的评估体系,通过5级李克特量表对所有响应进行独立评分。该评估体系涵盖认知支持与情感共鸣两个核心维度,从多角度衡量治疗质量。分析表明:大语言模型能通过生成安全、连贯且符合临床规范的信息提供可靠的认知支持,但在情感契合度方面表现不稳定。虽然闭源模型(如GPT-4o)能提供均衡的治疗性响应,开源模型则表现出更大的变异性和情感扁平化特征。本研究揭示了持续存在的认知-情感鸿沟,强调需要建立具备故障感知能力、以临床实践为基础的评估框架,在心理健康导向的大语言模型中实现信息准确性与关系敏感性的平衡。我们主张建立以治疗敏感性为核心、融合人类评估的平衡评价机制,并为心理健康导向对话式人工智能的责任设计与临床监督提供框架指导。

0
下载
关闭预览

相关内容

【斯坦福博士论文】大语言模型的AI辅助评估
专知会员服务
31+阅读 · 2025年3月30日
《以人为中心的大型语言模型(LLM)研究综述》
专知会员服务
41+阅读 · 2024年11月25日
《多模态大语言模型评估综述》
专知会员服务
39+阅读 · 2024年8月29日
迈向可信的人工智能:伦理和稳健的大型语言模型综述
专知会员服务
39+阅读 · 2024年7月28日
大语言模型评估技术研究进展
专知会员服务
48+阅读 · 2024年7月9日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
多模态情绪识别研究综述
专知
25+阅读 · 2020年12月21日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
41+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
41+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员