Multimodal emotion analysis is shifting from static classification to generative reasoning. Beyond simple label prediction, robust affective reasoning must synthesize fine-grained signals such as facial micro-expressions and prosodic which shifts to decode the latent causality within complex social contexts. However, current Multimodal Large Language Models (MLLMs) face significant limitations in fine-grained perception, primarily due to data scarcity and insufficient cross-modal fusion. As a result, these models often exhibit unimodal dominance which leads to hallucinations in complex multimodal interactions, particularly when visual and acoustic cues are subtle, ambiguous, or even contradictory (e.g., in sarcastic scenery). To address this, we introduce SABER-LLM, a framework designed for robust multimodal reasoning. First, we construct SABER, a large-scale emotion reasoning dataset comprising 600K video clips, annotated with a novel six-dimensional schema that jointly captures audiovisual cues and causal logic. Second, we propose the structured evidence decomposition paradigm, which enforces a "perceive-then-reason" separation between evidence extraction and reasoning to alleviate unimodal dominance. The ability to perceive complex scenes is further reinforced by consistency-aware direct preference optimization, which explicitly encourages alignment among modalities under ambiguous or conflicting perceptual conditions. Experiments on EMER, EmoBench-M, and SABER-Test demonstrate that SABER-LLM significantly outperforms open-source baselines and achieves robustness competitive with closed-source models in decoding complex emotional dynamics. The dataset and model are available at https://github.com/zxzhao0/SABER-LLM.


翻译:多模态情感分析正从静态分类转向生成式推理。超越简单的标签预测,鲁棒的情感推理必须综合细粒度信号,如面部微表情和韵律变化,以解码复杂社交情境中的潜在因果关系。然而,当前的多模态大语言模型(MLLMs)在细粒度感知方面面临显著局限,主要源于数据稀缺和跨模态融合不足。因此,这些模型常表现出单模态主导性,导致在复杂的多模态交互中出现幻觉,尤其在视觉和听觉线索微妙、模糊甚至相互矛盾时(例如在讽刺场景中)。为解决此问题,我们提出了SABER-LLM,一个为鲁棒多模态推理设计的框架。首先,我们构建了SABER,一个大规模情感推理数据集,包含60万个视频片段,采用新颖的六维标注方案,共同捕捉视听线索和因果逻辑。其次,我们提出了结构化证据分解范式,通过强制证据提取与推理之间的“先感知后推理”分离,以缓解单模态主导。感知复杂场景的能力通过一致性感知的直接偏好优化得到进一步强化,该方法明确鼓励在模糊或冲突的感知条件下实现模态间对齐。在EMER、EmoBench-M和SABER-Test上的实验表明,SABER-LLM显著优于开源基线模型,并在解码复杂情感动态方面达到了与闭源模型相竞争的鲁棒性。数据集和模型可在https://github.com/zxzhao0/SABER-LLM获取。

0
下载
关闭预览

相关内容

从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
24+阅读 · 2025年11月19日
多模态大语言模型遇见多模态情绪识别与推理:综述
专知会员服务
22+阅读 · 2025年10月3日
多模态对话情感识别:方法、趋势、挑战与前景综述
专知会员服务
20+阅读 · 2025年5月28日
【NeurIPS2024】迈向具有不完整数据的鲁棒多模态情感分析
《多模态大语言模型评估综述》
专知会员服务
39+阅读 · 2024年8月29日
多模态情绪识别研究综述
专知
25+阅读 · 2020年12月21日
【团队新作】连续情感识别,精准捕捉你的小情绪!
中国科学院自动化研究所
16+阅读 · 2018年4月17日
就喜欢看综述论文:情感分析中的深度学习
机器之心
13+阅读 · 2018年1月26日
特定目标情感分析——神经网络这是要逆天么
计算机研究与发展
14+阅读 · 2017年9月5日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关资讯
多模态情绪识别研究综述
专知
25+阅读 · 2020年12月21日
【团队新作】连续情感识别,精准捕捉你的小情绪!
中国科学院自动化研究所
16+阅读 · 2018年4月17日
就喜欢看综述论文:情感分析中的深度学习
机器之心
13+阅读 · 2018年1月26日
特定目标情感分析——神经网络这是要逆天么
计算机研究与发展
14+阅读 · 2017年9月5日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员