Mental health problems such as anxiety, depression, and suicide remain urgent global challenges, where timely and accurate assessment is critical for effective intervention. Recently, large language models have been explored for mental health assessment. However, existing general-purpose post-training methods do not align with the cognitive processes of human assessment, which may lead to unreliable reasoning outcomes. To bridge this gap, we propose Cognitive Relative Policy Optimization (CRPO), a reinforcement learning framework tailored for the mental health domain. CRPO extends group relative policy optimization by integrating stage-dependent uncertainty modeling into the policy optimization process. Specifically, we introduce a stage-wise entropy regularization mechanism that encourages broad exploration in early reasoning phases and progressively enforces confident decision-making in later stages, mimicking the human cognitive shift from uncertainty to certainty. In addition, inspired by cognitive appraisal theory, we formalize cognitive reasoning stages, thereby guiding theory-grounded interpretable inference. Experiments on 8 mental health datasets show that CRPO achieves an average improvement of 10.4 percentage points in weighted F1-score over the best reinforcement learning baseline. Furthermore, the CRPO-trained model Mental-R1 demonstrates clear advantages compared with existing large language models on reasoning-intensive cases, suggesting that CRPO enhances reasoning capabilities for mental health assessment.


翻译:焦虑、抑郁和自杀等心理健康问题仍是全球性紧迫挑战,及时准确的评估对有效干预至关重要。近期,大语言模型已被探索用于心理健康评估。然而,现有的通用后训练方法未能与人类评估的认知过程对齐,可能导致不可靠的推理结果。为弥合这一差距,我们提出认知相对策略优化(CRPO),这是一种专为心理健康领域设计的强化学习框架。CRPO通过将阶段依赖的不确定性建模融入策略优化过程,扩展了群体相对策略优化。具体而言,我们引入阶段式熵正则化机制,鼓励早期推理阶段的广泛探索,并在后续阶段逐步强化自信决策,模拟人类从不确定到确定的认知转变。此外,受认知评价理论启发,我们形式化推理的认知阶段,从而指导基于理论的、可解释的推理过程。在8个心理健康数据集上的实验表明,CRPO的加权F1分数相比最优强化学习基线平均提升10.4个百分点。更进一步,CRPO训练的模型Mental-R1在推理密集型案例上展现出相较于现有大语言模型的显著优势,这表明CRPO增强了心理健康评估的推理能力。

0
下载
关闭预览

相关内容

健康是指一个人在身体、精神和社会等方面都处于良好的状态。 健康包括两个方面的内容:

一是主要脏器无疾病,身体形态发育良好,体形均匀,人体各系统具有良好的生理功能,有较强的身体活动能力和劳动能力,这是对健康最基本的要求;

二是对疾病的抵抗能力较强,能够适应环境变化,各种生理刺激以及致病因素对身体的作用。传统的健康观是“无病即健康”,现代人的健康观是整体健康,世界卫生组织提出“健康不仅是躯体没有疾病,还要具备心理健康、社会适应良好和有道德”。因此,现代人的健康内容包括:躯体健康、心理健康、心灵健康、社会健康、智力健康、道德健康、环境健康等。健康是人的基本权利。健康是人生的第一财富。
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
1+阅读 · 今天14:45
定向能反无人机系统最新发展动态
专知会员服务
5+阅读 · 今天13:50
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 今天13:33
相关基金
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员