Large language models (LLMs) are increasingly used in emotionally sensitive human-AI applications, yet little is known about how emotion recognition is internally represented. In this work, we investigate the internal mechanisms of emotion recognition in LLMs using sparse autoencoders (SAEs). By analyzing sparse feature activations across layers, we identify a consistent three-phase information flow, in which emotion-related features emerge only in the final phase. We further show that emotion representations comprise both shared features across emotions and emotion-specific features. Using phase-stratified causal tracing, we identify a small set of features that strongly influence emotion predictions, and show that both their number and causal impact vary across emotions; in particular, Disgust is more weakly and diffusely represented than other emotions. Finally, we propose an interpretable and data-efficient causal feature steering method that significantly improves emotion recognition performance across multiple models while largely preserving language modeling ability, and demonstrate that these improvements generalize across multiple emotion recognition datasets. Overall, our findings provide a systematic analysis of the internal mechanisms underlying emotion recognition in LLMs and introduce an efficient, interpretable, and controllable approach for improving model performance.


翻译:大语言模型(LLMs)越来越多地被用于情感敏感的人机交互应用中,然而关于情感识别如何在模型内部表征的认知仍十分有限。本文利用稀疏自编码器(SAEs)研究大语言模型中情感识别的内部机制。通过分析各层的稀疏特征激活,我们识别出一致的三阶段信息流,其中情感相关特征仅在最后阶段出现。我们进一步证明情感表征既包含跨情感的共享特征,也包含特定情感的特征。通过基于阶段分层的因果追踪,我们识别出一小部分对情感预测有强烈影响的特征,并表明其特征数量及因果影响随情感类型而异;特别是,“厌恶”情感的表征较其他情感更弱且更分散。最后,我们提出一种可解释且数据高效的因果特征引导方法,该方法能在显著提升多个模型情感识别性能的同时,较好地保持语言建模能力,并验证了这些改进可泛化至多个情感识别数据集。总体而言,我们的研究系统揭示了大语言模型中情感识别的内部机制,并提出了一种高效、可解释且可控的模型性能改进方法。

0
下载
关闭预览

相关内容

稀疏自编码器综述:解释大语言模型的内部机制
专知会员服务
17+阅读 · 2025年12月27日
多模态大语言模型遇见多模态情绪识别与推理:综述
专知会员服务
22+阅读 · 2025年10月3日
大语言模型与小语言模型协同机制综述
专知会员服务
40+阅读 · 2025年5月15日
《大型语言模型情感认知》最新进展
专知会员服务
43+阅读 · 2024年10月3日
《大型语言模型(LLMs): 训练到推理》全面概述技术细节
R语言自然语言处理:情感分析
R语言中文社区
16+阅读 · 2019年4月16日
情感分析的新方法,使用word2vec对微博文本进行情感分析和分类
数据挖掘入门与实战
22+阅读 · 2018年1月6日
独家 | 为什么要利用NLP做情感分析?
数盟
13+阅读 · 2017年12月20日
深度学习在情感分析中的应用
CSDN大数据
14+阅读 · 2017年8月22日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月28日
Arxiv
12+阅读 · 2023年5月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关资讯
R语言自然语言处理:情感分析
R语言中文社区
16+阅读 · 2019年4月16日
情感分析的新方法,使用word2vec对微博文本进行情感分析和分类
数据挖掘入门与实战
22+阅读 · 2018年1月6日
独家 | 为什么要利用NLP做情感分析?
数盟
13+阅读 · 2017年12月20日
深度学习在情感分析中的应用
CSDN大数据
14+阅读 · 2017年8月22日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员