Multimodal sarcasm detection (MSD) aims to identify sarcastic intent from semantic incongruity between text and image. Although recent methods have improved MSD through cross-modal interaction and incongruity reasoning, most still treat modalities as equally reliable. In real social media posts, however, text and images often differ in noise level and relevance, making deterministic fusion susceptible to noisy evidence and weakened incongruity cues. To address this issue, we propose Uncertainty-aware Robust Multimodal Fusion (URMF), a unified framework for robust MSD. URMF first injects visual evidence into textual representations through multi-head cross-attention, and then applies self-attention in the fused semantic space to enhance incongruity reasoning. It models textual, visual, and interaction-aware representations as learnable Gaussian posteriors to estimate modality-specific uncertainty. Based on the estimated uncertainty, URMF dynamically adjusts modality contributions during fusion to suppress unreliable evidence. We further optimize the model with a unified objective that combines information bottleneck regularization, modality prior regularization, cross-modal distribution alignment, and uncertainty-driven contrastive learning. Experiments on the public MSD and MMSD2 benchmarks show that URMF outperforms representative unimodal, multimodal, and MLLM-based baselines. The results demonstrate that explicit uncertainty modeling can improve both accuracy and robustness in multimodal sarcasm detection.


翻译:多模态讽刺检测旨在从文本与图像之间的语义不一致性中识别讽刺意图。尽管近期方法通过跨模态交互和不一致性推理提升了检测性能,但多数方法仍将各模态视为同等可靠。然而在真实社交媒体帖子中,文本与图像在噪声水平和相关性上往往存在差异,导致确定性融合易受噪声证据影响并削弱不一致性线索。针对该问题,我们提出不确定性感知鲁棒多模态融合(URMF),一种用于鲁棒多模态讽刺检测的统一框架。URMF首先通过多头交叉注意力将视觉证据注入文本表征,随后在融合语义空间中应用自注意力以增强不一致性推理。该框架将文本、视觉及交互感知表征建模为可学习的高斯后验分布以估计模态特异性不确定性。基于估计的不确定性,URMF在融合过程中动态调整模态贡献以抑制不可靠证据。我们进一步通过结合信息瓶颈正则化、模态先验正则化、跨模态分布对齐及不确定性驱动的对比学习的统一目标函数对模型进行优化。在公开MSD和MMSD2基准上的实验表明,URMF优于代表性的单模态、多模态及基于大语言模型的基线方法。结果证明,显式不确定性建模能够同时提升多模态讽刺检测的准确性与鲁棒性。

0
下载
关闭预览

相关内容

《多模态对齐与融合》综述
专知会员服务
99+阅读 · 2024年11月27日
低质量数据的多模态融合综述
专知会员服务
59+阅读 · 2024年5月4日
基于多模态学习的虚假新闻检测研究
专知会员服务
34+阅读 · 2023年9月8日
【CVPR2021】跨模态检索的概率嵌入
专知会员服务
20+阅读 · 2021年3月2日
专知会员服务
149+阅读 · 2020年9月6日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
多模态情绪识别研究综述
专知
25+阅读 · 2020年12月21日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
《多模态对齐与融合》综述
专知会员服务
99+阅读 · 2024年11月27日
低质量数据的多模态融合综述
专知会员服务
59+阅读 · 2024年5月4日
基于多模态学习的虚假新闻检测研究
专知会员服务
34+阅读 · 2023年9月8日
【CVPR2021】跨模态检索的概率嵌入
专知会员服务
20+阅读 · 2021年3月2日
专知会员服务
149+阅读 · 2020年9月6日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员