Large language models (LLMs) are increasingly used for mental health support, yet they can produce responses that are overly directive, inconsistent, or clinically misaligned, particularly in sensitive or high-risk contexts. Existing approaches to mitigating these risks largely rely on implicit alignment through training or prompting, offering limited transparency and runtime accountability. We introduce PAIR-SAFE, a paired-agent framework for auditing and refining AI-generated mental health support that integrates a Responder agent with a supervisory Judge agent grounded in the clinically validated Motivational Interviewing Treatment Integrity (MITI-4) framework. The Judgeaudits each response and provides structuredALLOW or REVISE decisions that guide runtime response refinement. We simulate counseling interactions using a support-seeker simulator derived from human-annotated motivational interviewing data. We find that Judge-supervised interactions show significant improvements in key MITI dimensions, including Partnership, Seek Collaboration, and overall Relational quality. Our quantitative findings are supported by qualitative expert evaluation, which further highlights the nuances of runtime supervision. Together, our results reveal that such pairedagent approach can provide clinically grounded auditing and refinement for AI-assisted conversational mental health support.


翻译:大型语言模型(LLMs)正日益应用于心理健康支持领域,但其生成的回应可能过于指令化、前后不一致或与临床实践不符,尤其在敏感或高风险情境中。现有的风险缓解方法主要依赖于通过训练或提示实现的隐式对齐,其透明度和运行时问责能力有限。本文提出PAIR-SAFE——一种用于审计与精炼AI生成心理健康支持的双智能体框架,该框架将回应生成智能体与基于临床验证的动机性访谈治疗完整性(MITI-4)框架的监督型法官智能体相结合。法官智能体对每次回应进行审计,并提供结构化的“允许”或“修订”决策,以指导运行时的回应精炼。我们使用源自人工标注动机性访谈数据的求助者模拟器来模拟咨询对话。研究发现,在法官监督下的对话在关键MITI维度(包括伙伴关系、寻求协作及整体关系质量)上均表现出显著提升。定量研究结果得到了定性专家评估的支持,后者进一步揭示了运行时监督的细微差别。综合结果表明,此类双智能体方法能为AI辅助的对话式心理健康支持提供基于临床依据的审计与精炼机制。

0
下载
关闭预览

相关内容

健康是指一个人在身体、精神和社会等方面都处于良好的状态。 健康包括两个方面的内容:

一是主要脏器无疾病,身体形态发育良好,体形均匀,人体各系统具有良好的生理功能,有较强的身体活动能力和劳动能力,这是对健康最基本的要求;

二是对疾病的抵抗能力较强,能够适应环境变化,各种生理刺激以及致病因素对身体的作用。传统的健康观是“无病即健康”,现代人的健康观是整体健康,世界卫生组织提出“健康不仅是躯体没有疾病,还要具备心理健康、社会适应良好和有道德”。因此,现代人的健康内容包括:躯体健康、心理健康、心灵健康、社会健康、智力健康、道德健康、环境健康等。健康是人的基本权利。健康是人生的第一财富。
智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
什么是后训练?大语言模型训练后优化方法综述,87页pdf
迈向可信的人工智能:伦理和稳健的大型语言模型综述
专知会员服务
39+阅读 · 2024年7月28日
医疗中的自动机器学习和可解释性
专知
24+阅读 · 2019年4月1日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
原创 | Attention Modeling for Targeted Sentiment
黑龙江大学自然语言处理实验室
25+阅读 · 2017年11月5日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员