Open-Vocabulary Multimodal Emotion Recognition (OV-MER) is inherently challenging due to the ambiguity of equivocal multimodal cues, which often stem from distinct unobserved situational dynamics. While Multimodal Large Language Models (MLLMs) offer extensive semantic coverage, their performance is often bottlenecked by premature commitment to dominant data priors, resulting in suboptimal heuristics that overlook crucial, complementary affective cues across modalities. We argue that effective affective reasoning requires more than surface-level association; it necessitates reconstructing nuanced emotional states by synthesizing multiple evidence-grounded rationales that reconcile these observations from diverse latent perspectives. We introduce HyDRA, a Hybrid-evidential Deductive Reasoning Architecture that formalizes inference as a Propose-Verify-Decide protocol. To internalize this abductive process, we employ reinforcement learning with hierarchical reward shaping, aligning the reasoning trajectories with final task performance to ensure they best reconcile the observed multimodal cues. Systematic evaluations validate our design choices, with HyDRA consistently outperforming strong baselines--especially in ambiguous or conflicting scenarios--while providing interpretable, diagnostic evidence traces.


翻译:开放词汇多模态情感识别(OV-MER)因其多模态线索固有的模糊性而极具挑战性,这种模糊性通常源于未观测到的复杂情境动态。尽管多模态大语言模型(MLLMs)提供了广泛的语义覆盖,但其性能常受限于对显性数据先验的过早依赖,导致形成次优的启发式策略,从而忽略了跨模态的关键互补性情感线索。我们认为,有效的情感推理不仅需要表层关联,更需通过综合多个基于证据的理性依据,从不同的潜在视角调和这些观测,从而重构细腻的情感状态。为此,我们提出了HyDRA,一种混合证据演绎推理架构,它将推理形式化为一个“提议-验证-决策”协议。为了内化这一溯因过程,我们采用了具有分层奖励塑形的强化学习,使推理轨迹与最终任务性能对齐,以确保其能最优地调和观测到的多模态线索。系统评估验证了我们设计选择的有效性:HyDRA在各项基准测试中均持续优于强基线模型——尤其在模糊或冲突场景下——同时提供了可解释的诊断性证据轨迹。

0
下载
关闭预览

相关内容

多模态大语言模型遇见多模态情绪识别与推理:综述
专知会员服务
22+阅读 · 2025年10月3日
多模态大型语言模型:综述
专知会员服务
46+阅读 · 2025年6月14日
多模态对话情感识别:方法、趋势、挑战与前景综述
专知会员服务
20+阅读 · 2025年5月28日
强化多模态大语言模型:基于强化学习的推理综述
专知会员服务
36+阅读 · 2025年5月3日
当持续学习遇上多模态大型语言模型:综述
专知会员服务
32+阅读 · 2025年3月5日
西工大最新《多模态大型语言模型》全面综述
专知会员服务
70+阅读 · 2024年8月6日
多模态情绪识别研究综述
专知
25+阅读 · 2020年12月21日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
多模态深度学习综述,18页pdf
专知
51+阅读 · 2020年3月29日
就喜欢看综述论文:情感分析中的深度学习
机器之心
13+阅读 · 2018年1月26日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
《对信息环境分析实现人工智能预测冲突》96页
专知会员服务
3+阅读 · 今天9:59
《面向海军应用的无人机网络安全仿真环境》
专知会员服务
4+阅读 · 今天9:41
无人机与僵局:俄乌战争难以突破
专知会员服务
3+阅读 · 今天9:02
《控制对手感知:电子战愿景与赋能技术》
专知会员服务
5+阅读 · 今天8:51
自主、人工智能与可消耗集群时代的海军情报
专知会员服务
8+阅读 · 4月6日
“史诗狂怒行动”中的海军动态
专知会员服务
10+阅读 · 4月5日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员