Mitigating Multimodal Inconsistency via Cognitive Dual-Pathway Reasoning for Intent Recognition - 专知论文

会员服务 ·

0

模态 · 路径 · 一致 · 多模 · 不一致性 ·

Mitigating Multimodal Inconsistency via Cognitive Dual-Pathway Reasoning for Intent Recognition

翻译：通过认知双路径推理缓解多模态不一致性以实现意图识别

Yifan Wang,Peiwu Wang,Yunxian Chi,Zhinan Gou,Kai Gao

from arxiv, Accepted by ICMR 2026 (Main Track, Long Paper)

Multimodal Intent Recognition (MIR) aims to understand complex user intentions by leveraging text, video, and audio signals. However, existing approaches face two key challenges: (1) overlooking intricate cross-modal interactions for distinguishing consistent and inconsistent cues, and (2) ineffectively modeling multimodal conflicts, leading to semantic cancellation. To address these, we propose a novel Cognitive Dual-Pathway Reasoning (CDPR) framework, which constructs a stable semantic foundation via the intuition pathway and mitigates high-level semantic conflicts through the reasoning pathway, cooperatively establishing deep semantic relations. Specifically, we first employ a representation disentanglement strategy to extract modality-invariant and specific features. Subsequently, the intuition pathway aggregates cross-modal consensus using shared features for solid global representations. The reasoning pathway introduces an inconsistency perception mechanism, combining semantic prototype matching with statistical probability calibration to precisely quantify conflict severity, and dynamically adjusting the weights between both pathways. Furthermore, a multi-view loss function is adopted to alleviate modality laziness and learn structured features at different stages. Extensive experiments on two benchmarks show that CDPR achieves SOTA performance and superior robustness in mitigating multimodal inconsistency. The code is available at https://github.com/Hebust-NLP/CDPR.

翻译：多模态意图识别（MIR）旨在利用文本、视频和音频信号理解复杂的用户意图。然而，现有方法面临两个关键挑战：（1）忽略区分一致与不一致线索所需的复杂跨模态交互，（2）对多模态冲突的建模效率低下，导致语义抵消。为解决这些问题，我们提出了一种新颖的认知双路径推理（CDPR）框架，该框架通过直觉路径构建稳定的语义基础，并通过推理路径缓解高层语义冲突，协作建立深层语义关联。具体而言，我们首先采用表示解耦策略提取模态不变特征与模态特定特征。随后，直觉路径利用共享特征聚合跨模态共识，形成稳固的全局表示。推理路径引入不一致性感知机制，结合语义原型匹配与统计概率校准以精确量化冲突严重程度，并动态调整两条路径间的权重。此外，采用多视角损失函数缓解模态惰性，并在不同阶段学习结构化特征。在两个基准数据集上的大量实验表明，CDPR在缓解多模态不一致性方面达到了最先进的性能与卓越的鲁棒性。代码已开源至https://github.com/Hebust-NLP/CDPR。

0

相关内容

【综述】大语言模型驱动的多模态情感识别综述：挑战、分类与未来方向

【综述】大语言模型驱动的多模态情感识别综述：挑战、分类与未来方向

专知会员服务

11+阅读 · 5月22日

从感知到认知：多模态大语言模型中视觉-语言交互推理综述

从感知到认知：多模态大语言模型中视觉-语言交互推理综述

专知会员服务

32+阅读 · 2025年10月1日

多模态推理的基础、方法与未来前沿

多模态推理的基础、方法与未来前沿

专知会员服务

27+阅读 · 2025年7月6日

多模态对话情感识别：方法、趋势、挑战与前景综述

多模态对话情感识别：方法、趋势、挑战与前景综述

专知会员服务

20+阅读 · 2025年5月28日

《面向遥感的多模态小语言模型——引入思维链推理与GRPO技术》

《面向遥感的多模态小语言模型——引入思维链推理与GRPO技术》

专知会员服务

27+阅读 · 2025年5月16日

时序多模态知识图谱如何推理？国防科大最新《知识图谱推理:静态、时序和多模态》综述论文，全面阐述知识图谱推理技术进展

时序多模态知识图谱如何推理？国防科大最新《知识图谱推理:静态、时序和多模态》综述论文，全面阐述知识图谱推理技术进展

专知会员服务

107+阅读 · 2022年12月14日

多模态认知计算

多模态认知计算

专知会员服务

182+阅读 · 2022年9月16日

【ICCV2021】无需检测器提取特征！LeCun团队提出MDETR：实现真正的端到端多模态推理

专知会员服务

19+阅读 · 2021年7月29日

【NLPCC2020】多模态知识图谱构建、推理与挑战，东南大学王萌博士

专知会员服务

149+阅读 · 2020年10月21日

【清华大学】利用知识增强的图神经网络进行多段推理，Multi-Paragraph Reasoning with Knowledge-enhanced Graph Neural Network

【清华大学】利用知识增强的图神经网络进行多段推理，Multi-Paragraph Reasoning with Knowledge-enhanced Graph Neural Network

专知会员服务

95+阅读 · 2019年11月8日

多模态情绪识别研究综述

多模态情绪识别研究综述

专知

25+阅读 · 2020年12月21日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知

10+阅读 · 2020年8月12日

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

专知

53+阅读 · 2019年12月1日

专家报告|深度学习+图像多模态融合

专家报告|深度学习+图像多模态融合

中国图象图形学报

12+阅读 · 2019年10月23日

【清华大学】元知识图谱推理

【清华大学】元知识图谱推理

专知

129+阅读 · 2019年9月2日

论文浅尝 | 一种用于多关系问答的可解释推理网络

论文浅尝 | 一种用于多关系问答的可解释推理网络

开放知识图谱

18+阅读 · 2019年5月21日

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

雷锋网

13+阅读 · 2019年3月26日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

基于时空模式的复杂行为识别方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

图文混合跨媒体知识单元的模糊分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

正则双极值模糊推理的理论与方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于概率语义分析的多关系图多类标分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

噪声不确定下基于计算智能的多跳认知无线电网络协作频谱感知优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于稀疏表示的多摄像机非重叠视野域运动目标跟踪方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

Reinforcing Dual-Path Reasoning in Spatial Vision Language Models

Arxiv

0+阅读 · 6月16日

Disentangling Perception and Reasoning in Multimodal LLMs via Reward Design

Arxiv

0+阅读 · 6月15日

Mitigating Visual Hallucinations in Multimodal Systems through Retrieval-Augmented Reliability-Aware Inference

Arxiv

0+阅读 · 6月14日

Dual-Uncertainty Guided Policy Learning for Multimodal Reasoning

Arxiv

0+阅读 · 6月12日

From Correspondence to Actions: Human-Like Multi-Image Spatial Reasoning in Multi-modal Large Language Models

Arxiv

0+阅读 · 6月10日

Toward AI Systems That Understand Self and Others: A Multi-Phase Inference Framework for Human Cognitive Diversity and World-Model Alignment

Arxiv

0+阅读 · 5月28日

Multimodal Emotion Recognition with Large Language Models

Arxiv

0+阅读 · 5月20日

Enhancing Clinical Trial Patient Matching through Knowledge Augmentation and Reasoning with Multi-Agent

Arxiv

0+阅读 · 5月15日

UniPath: Adaptive Coordination of Understanding and Generation for Unified Multimodal Reasoning

Arxiv

0+阅读 · 5月12日

Modality-Aware Contrastive and Uncertainty-Regularized Emotion Recognition

Arxiv

0+阅读 · 5月7日

VIP会员

文章信息

相关主题

最新内容

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

3+阅读 · 今天6:30

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

4+阅读 · 今天6:18

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

4+阅读 · 今天6:08

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

4+阅读 · 今天5:54

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

4+阅读 · 今天5:22

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

5+阅读 · 今天5:15

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

5+阅读 · 今天3:42

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

4+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

3+阅读 · 6月24日

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

9+阅读 · 6月24日

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

8+阅读 · 6月24日

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

6+阅读 · 6月24日

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

8+阅读 · 6月24日

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

7+阅读 · 6月24日

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

6+阅读 · 6月24日

相关VIP内容

【综述】大语言模型驱动的多模态情感识别综述：挑战、分类与未来方向

【综述】大语言模型驱动的多模态情感识别综述：挑战、分类与未来方向

专知会员服务

11+阅读 · 5月22日

从感知到认知：多模态大语言模型中视觉-语言交互推理综述

从感知到认知：多模态大语言模型中视觉-语言交互推理综述

专知会员服务

32+阅读 · 2025年10月1日

多模态推理的基础、方法与未来前沿

多模态推理的基础、方法与未来前沿

专知会员服务

27+阅读 · 2025年7月6日

多模态对话情感识别：方法、趋势、挑战与前景综述

多模态对话情感识别：方法、趋势、挑战与前景综述

专知会员服务

20+阅读 · 2025年5月28日

《面向遥感的多模态小语言模型——引入思维链推理与GRPO技术》

《面向遥感的多模态小语言模型——引入思维链推理与GRPO技术》

专知会员服务

27+阅读 · 2025年5月16日

时序多模态知识图谱如何推理？国防科大最新《知识图谱推理:静态、时序和多模态》综述论文，全面阐述知识图谱推理技术进展

时序多模态知识图谱如何推理？国防科大最新《知识图谱推理:静态、时序和多模态》综述论文，全面阐述知识图谱推理技术进展

专知会员服务

107+阅读 · 2022年12月14日

多模态认知计算

多模态认知计算

专知会员服务

182+阅读 · 2022年9月16日

【ICCV2021】无需检测器提取特征！LeCun团队提出MDETR：实现真正的端到端多模态推理

专知会员服务

19+阅读 · 2021年7月29日

【NLPCC2020】多模态知识图谱构建、推理与挑战，东南大学王萌博士

专知会员服务

149+阅读 · 2020年10月21日

【清华大学】利用知识增强的图神经网络进行多段推理，Multi-Paragraph Reasoning with Knowledge-enhanced Graph Neural Network

【清华大学】利用知识增强的图神经网络进行多段推理，Multi-Paragraph Reasoning with Knowledge-enhanced Graph Neural Network

专知会员服务

95+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

网状网络及其在军事领域的运用

无美国参与的欧洲战争方式（万字长文）

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

相关资讯

多模态情绪识别研究综述

多模态情绪识别研究综述

专知

25+阅读 · 2020年12月21日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知

10+阅读 · 2020年8月12日

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

专知

53+阅读 · 2019年12月1日

专家报告|深度学习+图像多模态融合

专家报告|深度学习+图像多模态融合

中国图象图形学报

12+阅读 · 2019年10月23日

【清华大学】元知识图谱推理

【清华大学】元知识图谱推理

专知

129+阅读 · 2019年9月2日

论文浅尝 | 一种用于多关系问答的可解释推理网络

论文浅尝 | 一种用于多关系问答的可解释推理网络

开放知识图谱

18+阅读 · 2019年5月21日

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

雷锋网

13+阅读 · 2019年3月26日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

相关论文

Reinforcing Dual-Path Reasoning in Spatial Vision Language Models

Arxiv

0+阅读 · 6月16日

Disentangling Perception and Reasoning in Multimodal LLMs via Reward Design

Arxiv

0+阅读 · 6月15日

Mitigating Visual Hallucinations in Multimodal Systems through Retrieval-Augmented Reliability-Aware Inference

Arxiv

0+阅读 · 6月14日

Dual-Uncertainty Guided Policy Learning for Multimodal Reasoning

Arxiv

0+阅读 · 6月12日

From Correspondence to Actions: Human-Like Multi-Image Spatial Reasoning in Multi-modal Large Language Models

Arxiv

0+阅读 · 6月10日

Toward AI Systems That Understand Self and Others: A Multi-Phase Inference Framework for Human Cognitive Diversity and World-Model Alignment

Arxiv

0+阅读 · 5月28日

Multimodal Emotion Recognition with Large Language Models

Arxiv

0+阅读 · 5月20日

Enhancing Clinical Trial Patient Matching through Knowledge Augmentation and Reasoning with Multi-Agent

Arxiv

0+阅读 · 5月15日

UniPath: Adaptive Coordination of Understanding and Generation for Unified Multimodal Reasoning

Arxiv

0+阅读 · 5月12日

Modality-Aware Contrastive and Uncertainty-Regularized Emotion Recognition

Arxiv

0+阅读 · 5月7日

相关基金

基于时空模式的复杂行为识别方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

图文混合跨媒体知识单元的模糊分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

正则双极值模糊推理的理论与方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于概率语义分析的多关系图多类标分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

噪声不确定下基于计算智能的多跳认知无线电网络协作频谱感知优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于稀疏表示的多摄像机非重叠视野域运动目标跟踪方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员