Millions now use generative AI chatbots for psychological support. Despite the promise related to availability and scale, the single most pressing question in AI for mental health is whether these tools are safe. The Validation of Ethical and Responsible AI in Mental Health (VERA-MH) evaluation was recently proposed to meet the urgent need for an evidence-based, automated safety benchmark. This study aimed to examine the clinical validity and reliability of VERA-MH for evaluating AI safety in suicide risk detection and response. We first simulated a large set of conversations between large language model (LLM)-based users (user-agents) and general-purpose AI chatbots. Licensed mental health clinicians used a rubric (scoring guide) to independently rate the simulated conversations for safe and unsafe chatbot behaviors, as well as user-agent realism. An LLM-based judge used the same scoring rubric to evaluate the same set of simulated conversations. We then examined rating alignment (a) among individual clinicians and (b) between clinician consensus and the LLM judge, and (c) summarized clinicians' ratings of user-agent realism. Individual clinicians were generally consistent with one another in their safety ratings (chance-corrected inter-rater reliability [IRR] = 0.77), establishing a gold-standard clinical reference. The LLM judge was strongly aligned with this clinical consensus overall (IRR = 0.81) and within key conditions. Together, findings from this human evaluation study support the validity and reliability of VERA-MH: an open-source, automated AI safety evaluation for mental health. Future research will examine the generalizability and robustness of VERA-MH and expand the framework to target additional key areas of AI safety in mental health.


翻译:目前有数百万人使用生成式人工智能聊天机器人寻求心理支持。尽管其在可及性和规模方面前景广阔,但人工智能在心理健康领域最紧迫的问题是这些工具是否安全。为满足对基于证据的自动化安全基准的迫切需求,近期提出了心理健康领域伦理与负责任人工智能验证(VERA-MH)评估。本研究旨在检验VERA-MH在自杀风险检测与响应方面评估人工智能安全性的临床效度与信度。我们首先模拟了大量基于大语言模型的用户代理与通用人工智能聊天机器人之间的对话。持照心理健康临床医生使用评分指南,独立对模拟对话中聊天机器人的安全与不安全行为以及用户代理的真实性进行评级。一位基于大语言模型的评判员使用相同的评分指南对同一组模拟对话进行评估。随后,我们检验了(a)临床医生个体之间、(b)临床医生共识与大语言模型评判员之间的评分一致性,并(c)汇总了临床医生对用户代理真实性的评分。临床医生个体在安全性评分上总体相互一致(校正机会的评分者间信度[IRR] = 0.77),从而建立了黄金标准的临床参照。大语言模型评判员总体上与该临床共识高度一致(IRR = 0.81),且在关键情境下亦如此。综上,这项人工评估研究的结果支持VERA-MH——一项用于心理健康领域的开源、自动化人工智能安全评估——的效度与信度。未来研究将检验VERA-MH的普适性与稳健性,并扩展该框架以覆盖心理健康领域人工智能安全的其他关键方面。

0
下载
关闭预览

相关内容

健康是指一个人在身体、精神和社会等方面都处于良好的状态。 健康包括两个方面的内容:

一是主要脏器无疾病,身体形态发育良好,体形均匀,人体各系统具有良好的生理功能,有较强的身体活动能力和劳动能力,这是对健康最基本的要求;

二是对疾病的抵抗能力较强,能够适应环境变化,各种生理刺激以及致病因素对身体的作用。传统的健康观是“无病即健康”,现代人的健康观是整体健康,世界卫生组织提出“健康不仅是躯体没有疾病,还要具备心理健康、社会适应良好和有道德”。因此,现代人的健康内容包括:躯体健康、心理健康、心灵健康、社会健康、智力健康、道德健康、环境健康等。健康是人的基本权利。健康是人生的第一财富。
人工智能伦理风险与治理研究
专知会员服务
20+阅读 · 2025年4月22日
《人工智能安全标准体系(V1.0)》(征求意见稿)
专知会员服务
29+阅读 · 2025年3月23日
国家标准《人工智能风险管理能力评估》(征求意见稿)
AI在医疗中的安全挑战
专知会员服务
19+阅读 · 2024年10月5日
人工智能系统可信性度量评估研究综述
专知会员服务
95+阅读 · 2022年1月30日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
人工智能对网络空间安全的影响
走向智能论坛
21+阅读 · 2018年6月7日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月19日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员