Large language models (LLMs) are increasingly being used in a zero-shot fashion to assess mental health conditions, yet we have limited knowledge on what factors affect their accuracy. In this study, we utilize a clinical dataset of natural language narratives and self-reported PTSD severity scores from 1,437 individuals to comprehensively evaluate the performance of 11 state-of-the-art LLMs. To understand the factors affecting accuracy, we systematically varied (i) contextual knowledge like subscale definitions, distribution summary, and interview questions, and (ii) modeling strategies including zero-shot vs few shot, amount of reasoning effort, model sizes, structured subscales vs direct scalar prediction, output rescaling and nine ensemble methods. Our findings indicate that (a) LLMs are most accurate when provided with detailed construct definitions and context of the narrative; (b) increased reasoning effort leads to better estimation accuracy; (c) performance of open-weight models (Llama, Deepseek), plateau beyond 70B parameters while closed-weight (o3-mini, gpt-5) models improve with newer generations; and (d) best performance is achieved when ensembling a supervised model with the zero-shot LLMs. Taken together, the results suggest choice of contextual knowledge and modeling strategies is important for deploying LLMs to accurately assess mental health.


翻译:大型语言模型正日益以零样本方式用于评估心理健康状况,但我们对其准确性影响因素的认识仍有限。本研究利用包含1,437名个体的自然语言叙述与自述创伤后应激障碍严重程度评分的临床数据集,对11个前沿大型语言模型进行了全面评估。为探究影响准确性的因素,我们系统性地调整了(i)情境知识(如子量表定义、分布摘要和访谈问题)与(ii)建模策略(包括零样本与少样本学习、推理强度、模型规模、结构化子量表与直接标量预测、输出重缩放及九种集成方法)。研究结果表明:(a)当提供详细构念定义和叙述情境时,大型语言模型最为准确;(b)增强推理强度可提升评估准确性;(c)开源权重模型(Llama、Deepseek)在参数量超过700亿后性能趋于稳定,而闭源权重模型(o3-mini、gpt-5)则随代际更新持续提升;(d)将有监督模型与零样本大型语言模型集成时可获得最佳性能。综上所述,研究结果表明情境知识的选择与建模策略的制定对于部署大型语言模型以准确评估心理健康具有重要作用。

0
下载
关闭预览

相关内容

大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
大语言模型基准综述
专知会员服务
25+阅读 · 2025年8月22日
基于大型语言模型的人机系统综述
专知会员服务
26+阅读 · 2025年5月12日
《大型语言模型情感认知》最新进展
专知会员服务
43+阅读 · 2024年10月3日
大语言模型评估技术研究进展
专知会员服务
48+阅读 · 2024年7月9日
「大型语言模型评测」综述
专知会员服务
70+阅读 · 2024年3月30日
大型语言模型在预测和异常检测中的应用综述
专知会员服务
70+阅读 · 2024年2月19日
天大最新《大型语言模型评估》全面综述,111页pdf
专知会员服务
88+阅读 · 2023年10月31日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关VIP内容
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
大语言模型基准综述
专知会员服务
25+阅读 · 2025年8月22日
基于大型语言模型的人机系统综述
专知会员服务
26+阅读 · 2025年5月12日
《大型语言模型情感认知》最新进展
专知会员服务
43+阅读 · 2024年10月3日
大语言模型评估技术研究进展
专知会员服务
48+阅读 · 2024年7月9日
「大型语言模型评测」综述
专知会员服务
70+阅读 · 2024年3月30日
大型语言模型在预测和异常检测中的应用综述
专知会员服务
70+阅读 · 2024年2月19日
天大最新《大型语言模型评估》全面综述,111页pdf
专知会员服务
88+阅读 · 2023年10月31日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员