In this paper, we introduce an Adaptive Graph Signal Processing with Dynamic Semantic Alignment (AGSP DSA) framework to perform robust multimodal data fusion over heterogeneous sources, including text, audio, and images. The requested approach uses a dual-graph construction to learn both intra-modal and inter-modal relations, spectral graph filtering to boost the informative signals, and effective node embedding with Multi-scale Graph Convolutional Networks (GCNs). Semantic aware attention mechanism: each modality may dynamically contribute to the context with respect to contextual relevance. The experimental outcomes on three benchmark datasets, including CMU-MOSEI, AVE, and MM-IMDB, show that AGSP-DSA performs as the state of the art. More precisely, it achieves 95.3% accuracy, 0.936 F1-score, and 0.924 mAP on CMU-MOSEI, improving MM-GNN by 2.6 percent in accuracy. It gets 93.4% accuracy and 0.911 F1-score on AVE and 91.8% accuracy and 0.886 F1-score on MM-IMDB, which demonstrate good generalization and robustness in the missing modality setting. These findings verify the efficiency of AGSP-DSA in promoting multimodal learning in sentiment analysis, event recognition and multimedia classification.


翻译:本文提出了一种自适应图信号处理与动态语义对齐(AGSP-DSA)框架,用于在文本、音频和图像等异构源上进行鲁棒的多模态数据融合。该方法采用双图构建来学习模态内与模态间关系,利用谱图滤波增强信息信号,并通过多尺度图卷积网络(GCNs)实现有效的节点嵌入。语义感知注意力机制使每种模态能根据上下文相关性动态地贡献于语境。在CMU-MOSEI、AVE和MM-IMDB三个基准数据集上的实验结果表明,AGSP-DSA达到了最先进的性能。具体而言,在CMU-MOSEI上取得了95.3%的准确率、0.936的F1分数和0.924的mAP,准确率较MM-GNN提升2.6%;在AVE上获得93.4%的准确率和0.911的F1分数;在MM-IMDB上获得91.8%的准确率和0.886的F1分数,证明了其在模态缺失场景下良好的泛化能力与鲁棒性。这些发现验证了AGSP-DSA在促进情感分析、事件识别和多媒体分类等多模态学习任务中的有效性。

0
下载
关闭预览

相关内容

《多模态对齐与融合》综述
专知会员服务
99+阅读 · 2024年11月27日
使用多模态语言模型生成图像
专知会员服务
32+阅读 · 2023年8月23日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关VIP内容
《多模态对齐与融合》综述
专知会员服务
99+阅读 · 2024年11月27日
使用多模态语言模型生成图像
专知会员服务
32+阅读 · 2023年8月23日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员