Multimodal data plays a critical role in web-based recommendation systems, where information from diverse modalities such as vision and text enhances representation learning. However, real-world multimodal datasets often suffer from modality incompleteness due to sensor failures, annotation scarcity, or privacy constraints, which substantially degrade model performance and reliability. One effective solution to address this issue is modality completion, which reconstructs missing features to provide modality-complete graphs for downstream tasks. Given a query node with missing multimodal features, existing modality completion methods typically infer information from the node itself or its neighbors to reconstruct the missing modality. However, these methods may overlook semantically relevant context in the graph, which contains valuable cues that are non-trivial to capture through simple methods like neighborhood aggregation. In this work, we propose GRE-MC, a Graph Retrieval-Enhanced Modality Completion framework, to overcome these limitations. By introducing a modality-aware subgraph retrieval mechanism, GRE-MC selects semantically relevant subgraphs from the entire graph, providing richer contextual information for completing missing modalities. Subsequently, a graph transformer jointly encodes the query node and the retrieved subgraph via global attention to complete the missing features, while a learnable sparse-routing codebook regularizes latent embeddings into compact bases for improved robustness. Extensive experiments on multimodal recommendation benchmarks demonstrate that GRE-MC consistently outperforms state-of-the-art methods, validating the effectiveness of subgraph retrieval and joint-encoding graph transformer for robust modality completion.


翻译:多模态数据在网络推荐系统中扮演着关键角色,来自视觉和文本等不同模态的信息能够增强表示学习。然而,由于传感器故障、标注稀缺或隐私限制等问题,真实场景中的多模态数据集经常面临模态不完整的情况,这严重降低了模型性能与可靠性。解决该问题的有效途径之一是模态补全,即重建缺失特征从而为下游任务提供模态完整的图结构。对于具有缺失多模态特征的查询节点,现有模态补全方法通常通过节点自身或其邻居信息来推断并重建缺失模态。但这些方法可能忽略图中语义相关的上下文信息,这些信息蕴含通过邻居聚合等简单方法难以捕获的重要线索。为此,本文提出GRE-MC框架——一种基于图检索增强的模态补全方法。通过引入模态感知的子图检索机制,GRE-MC从全图中选取语义相关的子图,为缺失模态补全提供更丰富的上下文信息。随后,图Transformer通过全局注意力联合编码查询节点与检索子图以补全缺失特征,同时可学习的稀疏路由码本将潜在嵌入规则化为紧凑基向量,从而提升模型鲁棒性。在多模态推荐基准上的大量实验表明,GRE-MC始终优于现有最优方法,验证了子图检索与联合编码图Transformer在鲁棒模态补全中的有效性。

0
下载
关闭预览

相关内容

【NTU博士论文】数据高效的深度多模态学习
专知会员服务
25+阅读 · 2025年1月31日
深度多模态数据融合
专知会员服务
55+阅读 · 2024年11月9日
多模态知识图谱表示学习综述
专知会员服务
72+阅读 · 2024年7月4日
数据受限条件下的多模态处理技术综述
专知
22+阅读 · 2022年7月16日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
多模态深度学习综述,18页pdf
专知
51+阅读 · 2020年3月29日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
人工智能顶刊TPAMI2019最新《多模态机器学习综述》
人工智能学家
29+阅读 · 2019年1月19日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关资讯
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员