Recent incidents involving LLMs used for mental-health support reveal a critical evaluation gap: surface-level safety scores do not capture how models behave across realistic, emotionally sensitive interactions over time. Existing benchmarks measure knowledge, safety, or static response quality, but miss whether LLM interactions help users keep reflecting, coping, and making decisions themselves. We formalize this missing dimension as COGNITIVE ATROPHY, a process-level behavioural measure in AI-mediated mental-health support distinct from safety and helpfulness. To measure it, we introduce COGNITIVE ATROPHY BENCH, a clinically grounded benchmark built from 1,576 fully human-generated counseling conversations, 15,680 turns, and 42,230 responses from five LLMs. Three clinical and neuropsychology experts developed a 20-attribute schema spanning user context, response behaviour, and global risk flags; six trained clinical reviewers applied it with span-grounded evidence, producing 5,324 reviewer judgments. We further introduce the User-Input Risk Index (UIRI), the Cognitive Atrophy Risk Index (ARI), and trajectory summaries. Across five LLMs, models show a consistent moderate-to-high level of atrophy-aligned behaviour across single and multi-turn settings. While models generally respond to overt safety cues, they adapt less reliably when users seek solutions or decisions. The dominant recurring patterns are directive advice, problem-solving, recommendation responses, topic shifts, and forms of validation that may reinforce dependence rather than reflection. Our work makes COGNITIVE ATROPHY measurable and provides a foundation for auditing model behaviour in sensitive LLM conversations.


翻译:近期涉及大语言模型用于心理健康支持的事件揭示了一个关键的评估缺口:表面安全性评分无法捕捉模型在长期真实情感敏感性交互中的行为表现。现有基准测试衡量知识掌握、安全性或静态响应质量,却未能评估大语言模型交互是否帮助用户持续进行自我反思、应对困境并做出决策。我们正式将这一缺失维度定义为认知萎缩——一种区别于安全性和有用性的AI介导心理健康支持过程级行为度量。为量化该指标,我们构建了认知萎缩基准测试:基于1576个完全由人类生成的咨询对话、15680个话轮及来自五个大语言模型的42230条响应,三位临床与神经心理学专家制定了涵盖用户语境、响应行为及全局风险标识的20属性架构,六位经过培训的临床评审员基于话语跨度证据进行标注,最终形成5324条评审意见。我们进一步提出用户输入风险指数、认知萎缩风险指数及行为轨迹摘要。在五大模型评估中,单轮与多轮对话场景均呈现一致的中度至高度萎缩倾向行为。尽管模型普遍能响应显性安全信号,但当用户寻求解决方案或决策时适应能力明显不足。主导性重复模式包括:指令性建议、问题求解式回应、推荐型回答、话题转移及可能强化依赖而非反思的确认行为。本研究使认知萎缩变得可量化,为敏感对话场景的模型行为审计奠定基础。

0
下载
关闭预览

相关内容

《军事大语言模型的拒绝率测量与消除》
专知会员服务
14+阅读 · 3月13日
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
《大型语言模型情感认知》最新进展
专知会员服务
43+阅读 · 2024年10月3日
大语言模型的知识冲突:成因、根源与展望
专知会员服务
21+阅读 · 2024年9月23日
大语言模型评估技术研究进展
专知会员服务
49+阅读 · 2024年7月9日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
基于知识蒸馏的BERT模型压缩
大数据文摘
18+阅读 · 2019年10月14日
深入理解BERT Transformer ,不仅仅是注意力机制
大数据文摘
22+阅读 · 2019年3月19日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
2+阅读 · 今天11:43
网状网络及其在军事领域的运用
专知会员服务
5+阅读 · 今天6:18
无美国参与的欧洲战争方式(万字长文)
专知会员服务
6+阅读 · 今天5:54
《国防领域敏感性分析白皮书》
专知会员服务
7+阅读 · 今天3:42
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
8+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
9+阅读 · 6月24日
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
7+阅读 · 6月24日
在人工智能加速决策环境中拓展OODA循环
专知会员服务
9+阅读 · 6月24日
相关VIP内容
《军事大语言模型的拒绝率测量与消除》
专知会员服务
14+阅读 · 3月13日
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
《大型语言模型情感认知》最新进展
专知会员服务
43+阅读 · 2024年10月3日
大语言模型的知识冲突:成因、根源与展望
专知会员服务
21+阅读 · 2024年9月23日
大语言模型评估技术研究进展
专知会员服务
49+阅读 · 2024年7月9日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员