Multimodal Intent Recognition (MIR) aims to understand complex user intentions by leveraging text, video, and audio signals. However, existing approaches face two key challenges: (1) overlooking intricate cross-modal interactions for distinguishing consistent and inconsistent cues, and (2) ineffectively modeling multimodal conflicts, leading to semantic cancellation. To address these, we propose a novel Cognitive Dual-Pathway Reasoning (CDPR) framework, which constructs a stable semantic foundation via the intuition pathway and mitigates high-level semantic conflicts through the reasoning pathway, cooperatively establishing deep semantic relations. Specifically, we first employ a representation disentanglement strategy to extract modality-invariant and specific features. Subsequently, the intuition pathway aggregates cross-modal consensus using shared features for solid global representations. The reasoning pathway introduces an inconsistency perception mechanism, combining semantic prototype matching with statistical probability calibration to precisely quantify conflict severity, and dynamically adjusting the weights between both pathways. Furthermore, a multi-view loss function is adopted to alleviate modality laziness and learn structured features at different stages. Extensive experiments on two benchmarks show that CDPR achieves SOTA performance and superior robustness in mitigating multimodal inconsistency. The code is available at https://github.com/Hebust-NLP/CDPR.


翻译:多模态意图识别(MIR)旨在利用文本、视频和音频信号理解复杂的用户意图。然而,现有方法面临两个关键挑战:(1)忽略区分一致与不一致线索所需的复杂跨模态交互,(2)对多模态冲突的建模效率低下,导致语义抵消。为解决这些问题,我们提出了一种新颖的认知双路径推理(CDPR)框架,该框架通过直觉路径构建稳定的语义基础,并通过推理路径缓解高层语义冲突,协作建立深层语义关联。具体而言,我们首先采用表示解耦策略提取模态不变特征与模态特定特征。随后,直觉路径利用共享特征聚合跨模态共识,形成稳固的全局表示。推理路径引入不一致性感知机制,结合语义原型匹配与统计概率校准以精确量化冲突严重程度,并动态调整两条路径间的权重。此外,采用多视角损失函数缓解模态惰性,并在不同阶段学习结构化特征。在两个基准数据集上的大量实验表明,CDPR在缓解多模态不一致性方面达到了最先进的性能与卓越的鲁棒性。代码已开源至https://github.com/Hebust-NLP/CDPR。

0
下载
关闭预览

相关内容

多模态推理的基础、方法与未来前沿
专知会员服务
27+阅读 · 2025年7月6日
多模态对话情感识别:方法、趋势、挑战与前景综述
专知会员服务
20+阅读 · 2025年5月28日
多模态认知计算
专知会员服务
182+阅读 · 2022年9月16日
多模态情绪识别研究综述
专知
25+阅读 · 2020年12月21日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
【清华大学】元知识图谱推理
专知
129+阅读 · 2019年9月2日
论文浅尝 | 一种用于多关系问答的可解释推理网络
开放知识图谱
18+阅读 · 2019年5月21日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
网状网络及其在军事领域的运用
专知会员服务
4+阅读 · 今天6:18
无美国参与的欧洲战争方式(万字长文)
专知会员服务
4+阅读 · 今天5:54
《国防领域敏感性分析白皮书》
专知会员服务
5+阅读 · 今天3:42
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
3+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
8+阅读 · 6月24日
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
6+阅读 · 6月24日
在人工智能加速决策环境中拓展OODA循环
专知会员服务
8+阅读 · 6月24日
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
6+阅读 · 6月24日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员