Large language model-powered chatbots have transformed how people seek information, especially in high-stakes contexts like mental health. Despite their support capabilities, safe detection and response to crises such as suicidal ideation and self-harm are still unclear, hindered by the lack of unified crisis taxonomies and clinical evaluation standards. We address this by creating: (1) a taxonomy of six crisis categories; (2) a dataset of over 2,000 inputs from 12 mental health datasets, classified into these categories; and (3) a clinical response assessment protocol. We also use LLMs to identify crisis inputs and audit five models for response safety and appropriateness. First, we built a clinical-informed crisis taxonomy and evaluation protocol. Next, we curated 2,252 relevant examples from over 239,000 user inputs, then tested three LLMs for automatic classification. In addition, we evaluated five models for the appropriateness of their responses to a user's crisis, graded on a 5-point Likert scale from harmful (1) to appropriate (5). While some models respond reliably to explicit crises, risks still exist. Many outputs, especially in self-harm and suicidal categories, are inappropriate or unsafe. Different models perform variably; some, like gpt-5-nano and deepseek-v3.2-exp, have low harm rates, but others, such as gpt-4o-mini and grok-4-fast, generate more unsafe responses. All models struggle with indirect signals, default replies, and context misalignment. These results highlight the urgent need for better safeguards, crisis detection, and context-aware responses in LLMs. They also show that alignment and safety practices, beyond scale, are crucial for reliable crisis support. Our taxonomy, datasets, and evaluation methods support ongoing AI mental health research, aiming to reduce harm and protect vulnerable users.


翻译:大语言模型驱动的聊天机器人已深刻改变了人们获取信息的方式,尤其在心理健康等高风险情境中。尽管此类模型具备支持能力,但在应对自杀意念、自伤等危机时,其安全检测与响应机制仍不明确,这主要受限于缺乏统一的危机分类体系与临床评估标准。为此,我们构建了以下内容:(1)包含六类危机类型的分类体系;(2)基于12个心理健康数据集、涵盖2000余条输入样本的分类数据集;(3)临床响应评估协议。同时,我们利用大语言模型识别危机输入,并对五个模型的响应安全性与适宜性进行审计。首先,我们建立了临床启发式危机分类体系与评估协议;其次,从超过239,000条用户输入中筛选出2,252个相关示例,测试三种大语言模型自动分类性能。此外,我们采用五级李克特量表(从有害[1分]到适宜[5分])评估五个模型对用户危机响应的适宜性。结果显示,部分模型对显性危机响应可靠,但仍存在风险:许多输出(尤其涉及自伤与自杀类别的场景)不当或存在安全隐患。不同模型表现差异显著——如gpt-5-nano与deepseek-v3.2-exp等模型的伤害率较低,而gpt-4o-mini与grok-4-fast等模型则产生更多不安全响应。所有模型在处理间接信号、默认回复及语境错位方面存在共性缺陷。这些结果凸显了亟需在大语言模型中强化安全防护、危机检测与语境感知响应能力。研究表明,除模型规模外,对齐策略与安全实践对实现可靠的危机支持至关重要。我们提出的分类体系、数据集与评估方法将持续推动人工智能心理健康研究发展,旨在降低风险、保护弱势用户。

0
下载
关闭预览

相关内容

《多智能体大语言模型系统的可靠决策研究》
专知会员服务
41+阅读 · 2月2日
LLMS4ALL:大语言模型在各学科科研与应用中的综述
专知会员服务
36+阅读 · 2025年10月4日
《以人为中心的大型语言模型(LLM)研究综述》
专知会员服务
41+阅读 · 2024年11月25日
大语言模型评估技术研究进展
专知会员服务
49+阅读 · 2024年7月9日
大语言模型安全现状与挑战
专知会员服务
88+阅读 · 2024年1月14日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
NLP实践:对话系统技术原理和应用
AI100
34+阅读 · 2019年3月20日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
《特种部队在透明战场中的生存力》最新报告
专知会员服务
0+阅读 · 30分钟前
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
7+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员