The recent advancement of Multimodal Large Language Models (MLLMs) is transforming human-computer interaction (HCI) from surface-level exchanges into more nuanced and emotionally intelligent communication. To realize this shift, emotion understanding becomes essential allowing systems to capture subtle cues underlying user intent. Furthermore, providing faithful explanations for predicted emotions is crucial to ensure interpretability and build user trust. However, current MLLM-based methods often generate emotion explanations that diverge from the target labels and sometimes even contradict their own predicted emotions. This inconsistency poses a critical risk for misunderstanding and erodes reliability in interactive settings. To address this, we propose a novel approach: the Emotional Rationale Verifier (ERV) and an Explanation Reward. Our method guides the model to produce reasoning that is explicitly consistent with the target emotion during multimodal emotion recognition without modifying the model architecture or requiring additional paired video-description annotations. Our method significantly improves faithful explanation-prediction consistency and explanation emotion accuracy on the MAFW and DFEW datasets. Through extensive experiments and human evaluations, we show that our approach not only enhances alignment between explanation and prediction but also empowers MLLMs to deliver emotionally coherent, trustworthy interactions, marking a key step toward truly human-like HCI systems.


翻译:多模态大语言模型(MLLMs)的最新进展正将人机交互(HCI)从表层交流转变为更细致、更具情感智能的沟通。为实现这一转变,情感理解变得至关重要,它使系统能够捕捉用户意图背后的微妙线索。此外,为预测的情感提供忠实解释对于确保可解释性和建立用户信任也极为关键。然而,当前基于MLLM的方法所生成的情感解释常常偏离目标标签,有时甚至与其自身预测的情感相矛盾。这种不一致性在交互场景中带来了误解的重大风险,并削弱了系统的可靠性。为解决此问题,我们提出了一种新颖方法:情感依据验证器(ERV)与解释奖励机制。我们的方法在不修改模型架构或需要额外配对视频-描述标注的前提下,引导模型在多模态情感识别过程中生成与目标情感明确一致的推理。在MAFW和DFEW数据集上,我们的方法显著提升了解释-预测一致性的忠实度以及解释的情感准确性。通过大量实验和人工评估,我们证明该方法不仅增强了解释与预测之间的对齐,还使MLLMs能够提供情感一致、可信赖的交互,这标志着向真正类人化HCI系统迈出了关键一步。

0
下载
关闭预览

相关内容

从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
24+阅读 · 2025年11月19日
多模态大语言模型遇见多模态情绪识别与推理:综述
专知会员服务
22+阅读 · 2025年10月3日
多模态大型语言模型:综述
专知会员服务
45+阅读 · 2025年6月14日
多模态对话情感识别:方法、趋势、挑战与前景综述
专知会员服务
20+阅读 · 2025年5月28日
MME-Survey:多模态大型语言模型评估的综合性调查
专知会员服务
43+阅读 · 2024年12月1日
《大型语言模型情感认知》最新进展
专知会员服务
43+阅读 · 2024年10月3日
《多模态大语言模型评估综述》
专知会员服务
39+阅读 · 2024年8月29日
从数据中心视角看多模态大型语言模型的综述
专知会员服务
58+阅读 · 2024年5月28日
揭秘ChatGPT情感对话能力
专知
16+阅读 · 2023年4月9日
多模态情绪识别研究综述
专知
25+阅读 · 2020年12月21日
【哈工大SCIR】多模态情感分析简述
深度学习自然语言处理
33+阅读 · 2019年12月14日
【团队新作】连续情感识别,精准捕捉你的小情绪!
中国科学院自动化研究所
16+阅读 · 2018年4月17日
就喜欢看综述论文:情感分析中的深度学习
机器之心
13+阅读 · 2018年1月26日
独家 | 为什么要利用NLP做情感分析?
数盟
13+阅读 · 2017年12月20日
深度学习在情感分析中的应用
CSDN大数据
14+阅读 · 2017年8月22日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关VIP内容
从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
24+阅读 · 2025年11月19日
多模态大语言模型遇见多模态情绪识别与推理:综述
专知会员服务
22+阅读 · 2025年10月3日
多模态大型语言模型:综述
专知会员服务
45+阅读 · 2025年6月14日
多模态对话情感识别:方法、趋势、挑战与前景综述
专知会员服务
20+阅读 · 2025年5月28日
MME-Survey:多模态大型语言模型评估的综合性调查
专知会员服务
43+阅读 · 2024年12月1日
《大型语言模型情感认知》最新进展
专知会员服务
43+阅读 · 2024年10月3日
《多模态大语言模型评估综述》
专知会员服务
39+阅读 · 2024年8月29日
从数据中心视角看多模态大型语言模型的综述
专知会员服务
58+阅读 · 2024年5月28日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员