The recent advancement of Multimodal Large Language Models (MLLMs) is transforming human-computer interaction (HCI) from surface-level exchanges into more nuanced and emotionally intelligent communication. To realize this shift, emotion understanding becomes essential allowing systems to capture subtle cues underlying user intent. Furthermore, providing faithful explanations for predicted emotions is crucial to ensure interpretability and build user trust. However, current MLLM-based methods often generate emotion explanations that diverge from the target labels and sometimes even contradict their own predicted emotions. This inconsistency poses a critical risk for misunderstanding and erodes reliability in interactive settings. To address this, we propose a novel approach: the Emotional Rationale Verifier (ERV) and an Explanation Reward. Our method guides the model to produce reasoning that is explicitly consistent with the target emotion during multimodal emotion recognition without modifying the model architecture or requiring additional paired video-description annotations. Our method significantly improves faithful explanation-prediction consistency and explanation emotion accuracy on the MAFW and DFEW datasets. Through extensive experiments and human evaluations, we show that our approach not only enhances alignment between explanation and prediction but also empowers MLLMs to deliver emotionally coherent, trustworthy interactions, marking a key step toward truly human-like HCI systems.


翻译:多模态大语言模型(MLLMs)的最新进展正将人机交互(HCI)从表层交流转变为更细致、更具情感智能的沟通。为实现这一转变,情感理解变得至关重要,它使系统能够捕捉用户意图背后的微妙线索。此外,为预测的情感提供忠实解释对于确保可解释性和建立用户信任也极为关键。然而,当前基于MLLM的方法所生成的情感解释常常偏离目标标签,有时甚至与其自身预测的情感相矛盾。这种不一致性在交互场景中带来了误解的重大风险,并削弱了系统的可靠性。为解决此问题,我们提出了一种新颖方法:情感依据验证器(ERV)与解释奖励机制。我们的方法在不修改模型架构或需要额外配对视频-描述标注的前提下,引导模型在多模态情感识别过程中生成与目标情感明确一致的推理。在MAFW和DFEW数据集上,我们的方法显著提升了解释-预测一致性的忠实度以及解释的情感准确性。通过大量实验和人工评估,我们证明该方法不仅增强了解释与预测之间的对齐,还使MLLMs能够提供情感一致、可信赖的交互,这标志着向真正类人化HCI系统迈出了关键一步。

0
下载
关闭预览

相关内容

多模态大语言模型的自我改进:综述
专知会员服务
25+阅读 · 2025年10月8日
多模态大语言模型遇见多模态情绪识别与推理:综述
专知会员服务
22+阅读 · 2025年10月3日
视觉语言建模导论
专知会员服务
38+阅读 · 2024年5月30日
【WWW2024】GraphPro:推荐系统中的图预训练与提示学习
专知会员服务
23+阅读 · 2024年1月26日
LLMCad:快速可扩展的设备上大型语言模型推理
专知会员服务
35+阅读 · 2023年9月11日
Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关VIP内容
多模态大语言模型的自我改进:综述
专知会员服务
25+阅读 · 2025年10月8日
多模态大语言模型遇见多模态情绪识别与推理:综述
专知会员服务
22+阅读 · 2025年10月3日
视觉语言建模导论
专知会员服务
38+阅读 · 2024年5月30日
【WWW2024】GraphPro:推荐系统中的图预训练与提示学习
专知会员服务
23+阅读 · 2024年1月26日
LLMCad:快速可扩展的设备上大型语言模型推理
专知会员服务
35+阅读 · 2023年9月11日
相关资讯
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员