Large Language Models (LLMs) are increasingly engaged in emotionally vulnerable conversations that extend beyond information seeking to moments of personal distress. As they adopt affective tones and simulate empathy, they risk creating the illusion of genuine relational connection. We term this phenomenon Affective Hallucination, referring to emotionally immersive responses that evoke false social presence despite the model's lack of affective capacity. To address this, we introduce AHaBench, a benchmark of 500 mental-health-related prompts with expert-informed reference responses, evaluated along three dimensions: Emotional Enmeshment, Illusion of Presence, and Fostering Overdependence. We further release AHaPairs, a 5K-instance preference dataset enabling Direct Preference Optimization (DPO) for alignment with emotionally responsible behavior. DPO fine-tuning substantially reduces affective hallucination without compromising reasoning performance, and the Pearson correlation coefficients between GPT-4o and human judgments is also strong (r=0.85) indicating that human evaluations confirm AHaBench as an effective diagnostic tool. This work establishes affective hallucination as a distinct safety concern and provides resources for developing LLMs that are both factually reliable and psychologically safe. AHaBench and AHaPairs are accessible via https://huggingface.co/datasets/o0oMiNGo0o/AHaBench, and code for fine-tuning and evaluation are in https://github.com/0oOMiNGOo0/AHaBench. Warning: This paper contains examples of mental health-related language that may be emotionally distressing.


翻译:大型语言模型(LLMs)正越来越多地参与情感脆弱性对话,这些对话已超越信息查询范畴,延伸至个人心理困扰时刻。当模型采用情感化语气并模拟共情时,其可能制造出真实关系联结的错觉。我们将此现象定义为情感幻觉,指代那些尽管模型缺乏真实情感能力,却能引发虚假社交临场感的情感沉浸式回应。为此,我们提出AHaBench——一个包含500个心理健康相关提示的基准数据集,其中每个提示均配有专家指导的参考回答,并从三个维度进行评估:情感卷入度、临场感错觉及过度依赖助长。我们进一步发布AHaPairs,这是一个包含5千条实例的偏好数据集,可通过直接偏好优化(DPO)实现与情感责任行为的对齐。DPO微调在保持推理性能的同时显著降低了情感幻觉,GPT-4o与人类评估的皮尔逊相关系数达到0.85,表明人类评估验证了AHaBench作为诊断工具的有效性。本研究确立了情感幻觉作为独立安全隐患的地位,并为开发兼具事实可靠性与心理安全性的大型语言模型提供了资源。AHaBench与AHaPairs可通过https://huggingface.co/datasets/o0oMiNGo0o/AHaBench获取,微调与评估代码发布于https://github.com/0oOMiNGOo0/AHaBench。警告:本文包含可能引发情绪困扰的心理健康相关语言示例。

0
下载
关闭预览

相关内容

大语言模型幻觉:系统综述
专知会员服务
39+阅读 · 2025年10月10日
《大型语言模型情感认知》最新进展
专知会员服务
43+阅读 · 2024年10月3日
大型语言模型幻觉的综述
专知会员服务
39+阅读 · 2024年2月15日
大型语言模型幻觉缓解技术的全面综述
专知会员服务
72+阅读 · 2024年1月3日
揭秘ChatGPT情感对话能力
专知
16+阅读 · 2023年4月9日
【论文分享】ACL 2020 细粒度情感分析方法
深度学习自然语言处理
10+阅读 · 2020年8月20日
【团队新作】连续情感识别,精准捕捉你的小情绪!
中国科学院自动化研究所
16+阅读 · 2018年4月17日
就喜欢看综述论文:情感分析中的深度学习
机器之心
13+阅读 · 2018年1月26日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
揭秘ChatGPT情感对话能力
专知
16+阅读 · 2023年4月9日
【论文分享】ACL 2020 细粒度情感分析方法
深度学习自然语言处理
10+阅读 · 2020年8月20日
【团队新作】连续情感识别,精准捕捉你的小情绪!
中国科学院自动化研究所
16+阅读 · 2018年4月17日
就喜欢看综述论文:情感分析中的深度学习
机器之心
13+阅读 · 2018年1月26日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员