We introduce VERA-MH (Validation of Ethical and Responsible AI in Mental Health), an automated evaluation of the safety of AI chatbots used in mental health contexts, with an initial focus on suicide risk. Practicing clinicians and academic experts developed a rubric informed by best practices for suicide risk management for the evaluation. To fully automate the process, we used two ancillary AI agents. A user-agent model simulates users engaging in a mental health-based conversation with the chatbot under evaluation. The user-agent role-plays specific personas with pre-defined risk levels and other features. Simulated conversations are then passed to a judge-agent who scores them based on the rubric. The final evaluation of the chatbot being tested is obtained by aggregating the scoring of each conversation. VERA-MH is actively under development and undergoing rigorous validation by mental health clinicians to ensure user-agents realistically act as patients and that the judge-agent accurately scores the AI chatbot. To date we have conducted preliminary evaluation of GPT-5, Claude Opus and Claude Sonnet using initial versions of the VERA-MH rubric and used the findings for further design development. Next steps will include more robust clinical validation and iteration, as well as refining actionable scoring. We are seeking feedback from the community on both the technical and clinical aspects of our evaluation.


翻译:我们介绍了VERA-MH(心理健康领域人工智能伦理与责任验证),这是一种用于评估心理健康场景下AI聊天机器人安全性的自动化方法,其初期重点聚焦于自杀风险。执业临床医生和学术专家依据自杀风险管理的最佳实践制定了一套评估标准。为实现流程的完全自动化,我们使用了两个辅助AI智能体。一个用户智能体模型模拟用户与被评估聊天机器人进行基于心理健康的对话。该用户智能体扮演具有预设风险等级及其他特征的具体人物角色。模拟对话随后被传递给一个评判智能体,后者依据评估标准对其进行打分。通过汇总每次对话的评分,获得对被测试聊天机器人的最终评估。VERA-MH目前正处于积极开发阶段,并正接受心理健康临床医生的严格验证,以确保用户智能体能真实模拟患者行为,且评判智能体能准确评估AI聊天机器人。迄今为止,我们已使用VERA-MH评估标准的初始版本对GPT-5、Claude Opus和Claude Sonnet进行了初步评估,并利用评估结果进一步指导设计开发。后续步骤将包括更稳健的临床验证与迭代,以及完善可操作的评分体系。我们正在就评估的技术和临床方面寻求社区的反馈。

0
下载
关闭预览

相关内容

健康是指一个人在身体、精神和社会等方面都处于良好的状态。 健康包括两个方面的内容:

一是主要脏器无疾病,身体形态发育良好,体形均匀,人体各系统具有良好的生理功能,有较强的身体活动能力和劳动能力,这是对健康最基本的要求;

二是对疾病的抵抗能力较强,能够适应环境变化,各种生理刺激以及致病因素对身体的作用。传统的健康观是“无病即健康”,现代人的健康观是整体健康,世界卫生组织提出“健康不仅是躯体没有疾病,还要具备心理健康、社会适应良好和有道德”。因此,现代人的健康内容包括:躯体健康、心理健康、心灵健康、社会健康、智力健康、道德健康、环境健康等。健康是人的基本权利。健康是人生的第一财富。
《以人为中心的大型语言模型(LLM)研究综述》
专知会员服务
41+阅读 · 2024年11月25日
OpenAI Lilian Weng万字长文解读LLM幻觉:从理解到克服
专知会员服务
37+阅读 · 2024年7月14日
【UIUC博士论文】迈向可信的大型语言模型,312页pdf
专知会员服务
41+阅读 · 2024年6月8日
专知会员服务
101+阅读 · 2021年3月20日
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
论文浅尝 | GMNN: Graph Markov Neural Networks
开放知识图谱
20+阅读 · 2020年2月14日
王仲远 | 基于概念知识图谱的短文本理解
开放知识图谱
14+阅读 · 2018年3月28日
论文笔记 | How NOT To Evaluate Your Dialogue System
科技创新与创业
13+阅读 · 2017年12月23日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月20日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员