From Syntax to Emotion: A Mechanistic Analysis of Emotion Inference in LLMs - 专知论文

会员服务 ·

0

识别 · 情感识别 · 语言模型 · 分析 · 稀疏 ·

From Syntax to Emotion: A Mechanistic Analysis of Emotion Inference in LLMs

翻译：从语法到情感：大语言模型中情感推理的机制分析

Bangzhao Shu,Arinjay Singh,Mai ElSherief

from arxiv, 18 pages including appendix

Large language models (LLMs) are increasingly used in emotionally sensitive human-AI applications, yet little is known about how emotion recognition is internally represented. In this work, we investigate the internal mechanisms of emotion recognition in LLMs using sparse autoencoders (SAEs). By analyzing sparse feature activations across layers, we identify a consistent three-phase information flow, in which emotion-related features emerge only in the final phase. We further show that emotion representations comprise both shared features across emotions and emotion-specific features. Using phase-stratified causal tracing, we identify a small set of features that strongly influence emotion predictions, and show that both their number and causal impact vary across emotions; in particular, Disgust is more weakly and diffusely represented than other emotions. Finally, we propose an interpretable and data-efficient causal feature steering method that significantly improves emotion recognition performance across multiple models while largely preserving language modeling ability, and demonstrate that these improvements generalize across multiple emotion recognition datasets. Overall, our findings provide a systematic analysis of the internal mechanisms underlying emotion recognition in LLMs and introduce an efficient, interpretable, and controllable approach for improving model performance.

翻译：大语言模型（LLMs）越来越多地被用于情感敏感的人机交互应用中，然而关于情感识别如何在模型内部表征的认知仍十分有限。本文利用稀疏自编码器（SAEs）研究大语言模型中情感识别的内部机制。通过分析各层的稀疏特征激活，我们识别出一致的三阶段信息流，其中情感相关特征仅在最后阶段出现。我们进一步证明情感表征既包含跨情感的共享特征，也包含特定情感的特征。通过基于阶段分层的因果追踪，我们识别出一小部分对情感预测有强烈影响的特征，并表明其特征数量及因果影响随情感类型而异；特别是，“厌恶”情感的表征较其他情感更弱且更分散。最后，我们提出一种可解释且数据高效的因果特征引导方法，该方法能在显著提升多个模型情感识别性能的同时，较好地保持语言建模能力，并验证了这些改进可泛化至多个情感识别数据集。总体而言，我们的研究系统揭示了大语言模型中情感识别的内部机制，并提出了一种高效、可解释且可控的模型性能改进方法。

0

相关内容

稀疏自编码器综述：解释大语言模型的内部机制

稀疏自编码器综述：解释大语言模型的内部机制

专知会员服务

17+阅读 · 2025年12月27日

多模态大语言模型遇见多模态情绪识别与推理：综述

多模态大语言模型遇见多模态情绪识别与推理：综述

专知会员服务

22+阅读 · 2025年10月3日

从感知到认知：多模态大语言模型中视觉-语言交互推理综述

从感知到认知：多模态大语言模型中视觉-语言交互推理综述

专知会员服务

32+阅读 · 2025年10月1日

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

专知会员服务

55+阅读 · 2025年8月26日

大语言模型与小语言模型协同机制综述

大语言模型与小语言模型协同机制综述

专知会员服务

40+阅读 · 2025年5月15日

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

专知会员服务

56+阅读 · 2025年3月16日

《大型语言模型情感认知》最新进展

《大型语言模型情感认知》最新进展

专知会员服务

43+阅读 · 2024年10月3日

【博士论文】理解大型语言模型：使用探针分类器和自合理化实现严格和有针对性的可解释性，109页pdf

【博士论文】理解大型语言模型：使用探针分类器和自合理化实现严格和有针对性的可解释性，109页pdf

专知会员服务

40+阅读 · 2024年4月14日

《大型语言模型（LLMs）: 训练到推理》全面概述技术细节

《大型语言模型（LLMs）: 训练到推理》全面概述技术细节

专知会员服务

126+阅读 · 2024年1月5日

大模型如何可解释？新泽西理工学院等最新《大型语言模型可解释性》综述

大模型如何可解释？新泽西理工学院等最新《大型语言模型可解释性》综述

专知会员服务

98+阅读 · 2023年9月11日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

R语言自然语言处理：情感分析

R语言自然语言处理：情感分析

R语言中文社区

16+阅读 · 2019年4月16日

【论文推荐】最新八篇情感分析相关论文—注意力网络、多模态情感分析、情感分析局限性、跨语言情感分类、多语言情感分析

【论文推荐】最新八篇情感分析相关论文—注意力网络、多模态情感分析、情感分析局限性、跨语言情感分类、多语言情感分析

专知

52+阅读 · 2018年6月28日

【论文推荐】最新十二篇情感分析相关论文—自然语言推理框架、网络事件、多任务学习、实时情感变化检测、多因素分析、深度语境词表示

【论文推荐】最新十二篇情感分析相关论文—自然语言推理框架、网络事件、多任务学习、实时情感变化检测、多因素分析、深度语境词表示

专知

22+阅读 · 2018年5月7日

【论文推荐】最新六篇情感分析相关论文—深度上下文、支持向量机、两级LSTM、多模态情感分析、软件工程、代码混合

【论文推荐】最新六篇情感分析相关论文—深度上下文、支持向量机、两级LSTM、多模态情感分析、软件工程、代码混合

专知

24+阅读 · 2018年3月31日

【论文推荐】最新5篇情感分析相关论文—深度学习情感分析综述、情感分析语料库、情感预测性、上下文和位置感知的因子分解模型、LSTM

【论文推荐】最新5篇情感分析相关论文—深度学习情感分析综述、情感分析语料库、情感预测性、上下文和位置感知的因子分解模型、LSTM

专知

55+阅读 · 2018年1月28日

情感分析的新方法，使用word2vec对微博文本进行情感分析和分类

情感分析的新方法，使用word2vec对微博文本进行情感分析和分类

数据挖掘入门与实战

22+阅读 · 2018年1月6日

独家 | 为什么要利用NLP做情感分析？

独家 | 为什么要利用NLP做情感分析？

数盟

13+阅读 · 2017年12月20日

深度学习在情感分析中的应用

深度学习在情感分析中的应用

CSDN大数据

14+阅读 · 2017年8月22日

基于多源语义表示学习的社交媒体文本属性情感分类研究

国家自然科学基金

4+阅读 · 2017年12月31日

短文本情感分析关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

读者视角的跨领域隐式情感分析理论及关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

中文社交化短文本情感分析与话题挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向情感认知的产品造型特征与用户意象需求层次映射机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于网络的情感语义词典的自动构建技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

From Chatbots to Confidants: A Cross-Cultural Study of LLM Adoption for Emotional Support

Arxiv

0+阅读 · 4月28日

Large Language Models have Chain-of-Affect

Arxiv

0+阅读 · 4月28日

Extracting and Steering Emotion Representations in Small Language Models: A Methodological Comparison

Arxiv

0+阅读 · 4月5日

Investigating the Influence of Language on Sycophantic Behavior of Multilingual LLMs

Arxiv

0+阅读 · 3月29日

Neuron-Level Analysis of Cultural Understanding in Large Language Models

Arxiv

0+阅读 · 3月29日

LLM4AD: Large Language Models for Autonomous Driving -- Concept, Review, Benchmark, Experiments, and Future Trends

Arxiv

0+阅读 · 3月26日

From Token to Item: Enhancing Large Language Models for Recommendation via Item-aware Attention Mechanism

Arxiv

0+阅读 · 3月20日

Understanding LLMs: A Comprehensive Overview from Training to Inference

Arxiv

19+阅读 · 2024年1月4日

Trends in Integration of Knowledge and Large Language Models: A Survey and Taxonomy of Methods, Benchmarks, and Applications

Arxiv

19+阅读 · 2023年11月10日

A Survey on Large Language Models for Recommendation

Arxiv

12+阅读 · 2023年5月31日

VIP会员

文章信息

相关主题

最新内容

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

0+阅读 · 11分钟前

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

1+阅读 · 23分钟前

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

1+阅读 · 34分钟前

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

1+阅读 · 43分钟前

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

1+阅读 · 47分钟前

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

1+阅读 · 51分钟前

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

1+阅读 · 55分钟前

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

6+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

相关VIP内容

稀疏自编码器综述：解释大语言模型的内部机制

稀疏自编码器综述：解释大语言模型的内部机制

专知会员服务

17+阅读 · 2025年12月27日

多模态大语言模型遇见多模态情绪识别与推理：综述

多模态大语言模型遇见多模态情绪识别与推理：综述

专知会员服务

22+阅读 · 2025年10月3日

从感知到认知：多模态大语言模型中视觉-语言交互推理综述

从感知到认知：多模态大语言模型中视觉-语言交互推理综述

专知会员服务

32+阅读 · 2025年10月1日

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

专知会员服务

55+阅读 · 2025年8月26日

大语言模型与小语言模型协同机制综述

大语言模型与小语言模型协同机制综述

专知会员服务

40+阅读 · 2025年5月15日

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

专知会员服务

56+阅读 · 2025年3月16日

《大型语言模型情感认知》最新进展

《大型语言模型情感认知》最新进展

专知会员服务

43+阅读 · 2024年10月3日

【博士论文】理解大型语言模型：使用探针分类器和自合理化实现严格和有针对性的可解释性，109页pdf

【博士论文】理解大型语言模型：使用探针分类器和自合理化实现严格和有针对性的可解释性，109页pdf

专知会员服务

40+阅读 · 2024年4月14日

《大型语言模型（LLMs）: 训练到推理》全面概述技术细节

《大型语言模型（LLMs）: 训练到推理》全面概述技术细节

专知会员服务

126+阅读 · 2024年1月5日

大模型如何可解释？新泽西理工学院等最新《大型语言模型可解释性》综述

大模型如何可解释？新泽西理工学院等最新《大型语言模型可解释性》综述

专知会员服务

98+阅读 · 2023年9月11日

热门VIP内容

开通专知VIP会员享更多权益服务

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

美以伊冲突：无人机与人工智能的运用

《特种部队在透明战场中的生存力》最新报告

相关资讯

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

R语言自然语言处理：情感分析

R语言自然语言处理：情感分析

R语言中文社区

16+阅读 · 2019年4月16日

【论文推荐】最新八篇情感分析相关论文—注意力网络、多模态情感分析、情感分析局限性、跨语言情感分类、多语言情感分析

【论文推荐】最新八篇情感分析相关论文—注意力网络、多模态情感分析、情感分析局限性、跨语言情感分类、多语言情感分析

专知

52+阅读 · 2018年6月28日

【论文推荐】最新十二篇情感分析相关论文—自然语言推理框架、网络事件、多任务学习、实时情感变化检测、多因素分析、深度语境词表示

【论文推荐】最新十二篇情感分析相关论文—自然语言推理框架、网络事件、多任务学习、实时情感变化检测、多因素分析、深度语境词表示

专知

22+阅读 · 2018年5月7日

【论文推荐】最新六篇情感分析相关论文—深度上下文、支持向量机、两级LSTM、多模态情感分析、软件工程、代码混合

【论文推荐】最新六篇情感分析相关论文—深度上下文、支持向量机、两级LSTM、多模态情感分析、软件工程、代码混合

专知

24+阅读 · 2018年3月31日

【论文推荐】最新5篇情感分析相关论文—深度学习情感分析综述、情感分析语料库、情感预测性、上下文和位置感知的因子分解模型、LSTM

【论文推荐】最新5篇情感分析相关论文—深度学习情感分析综述、情感分析语料库、情感预测性、上下文和位置感知的因子分解模型、LSTM

专知

55+阅读 · 2018年1月28日

情感分析的新方法，使用word2vec对微博文本进行情感分析和分类

情感分析的新方法，使用word2vec对微博文本进行情感分析和分类

数据挖掘入门与实战

22+阅读 · 2018年1月6日

独家 | 为什么要利用NLP做情感分析？

独家 | 为什么要利用NLP做情感分析？

数盟

13+阅读 · 2017年12月20日

深度学习在情感分析中的应用

深度学习在情感分析中的应用

CSDN大数据

14+阅读 · 2017年8月22日

相关论文

From Chatbots to Confidants: A Cross-Cultural Study of LLM Adoption for Emotional Support

Arxiv

0+阅读 · 4月28日

Large Language Models have Chain-of-Affect

Arxiv

0+阅读 · 4月28日

Extracting and Steering Emotion Representations in Small Language Models: A Methodological Comparison

Arxiv

0+阅读 · 4月5日

Investigating the Influence of Language on Sycophantic Behavior of Multilingual LLMs

Arxiv

0+阅读 · 3月29日

Neuron-Level Analysis of Cultural Understanding in Large Language Models

Arxiv

0+阅读 · 3月29日

LLM4AD: Large Language Models for Autonomous Driving -- Concept, Review, Benchmark, Experiments, and Future Trends

Arxiv

0+阅读 · 3月26日

From Token to Item: Enhancing Large Language Models for Recommendation via Item-aware Attention Mechanism

Arxiv

0+阅读 · 3月20日

Understanding LLMs: A Comprehensive Overview from Training to Inference

Arxiv

19+阅读 · 2024年1月4日

Trends in Integration of Knowledge and Large Language Models: A Survey and Taxonomy of Methods, Benchmarks, and Applications

Arxiv

19+阅读 · 2023年11月10日

A Survey on Large Language Models for Recommendation

Arxiv

12+阅读 · 2023年5月31日

相关基金

基于多源语义表示学习的社交媒体文本属性情感分类研究

国家自然科学基金

4+阅读 · 2017年12月31日

短文本情感分析关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

读者视角的跨领域隐式情感分析理论及关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

中文社交化短文本情感分析与话题挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向情感认知的产品造型特征与用户意象需求层次映射机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于网络的情感语义词典的自动构建技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员