Multimodal recommendation aims to integrate collaborative signals with heterogeneous content such as visual and textual information, but remains challenged by modality-specific noise, semantic inconsistency, and unstable propagation over user-item graphs. These issues are often exacerbated by naive fusion or shallow modeling strategies, leading to degraded generalization and poor robustness. While recent work has explored the frequency domain as a lens to separate stable from noisy signals, most methods rely on static filtering or reweighting, lacking the ability to reason over spectral structure or adapt to modality-specific reliability. To address these challenges, we propose a Structured Spectral Reasoning (SSR) framework for frequency-aware multimodal recommendation. Our method follows a four-stage pipeline: (i) Decompose graph-based multimodal signals into spectral bands via graph-guided transformations to isolate semantic granularity; (ii) Modulate band-level reliability with spectral band masking, a training-time masking with a prediction-consistency objective that suppresses brittle frequency components; (iii) Fuse complementary frequency cues using hyperspectral reasoning with low-rank cross-band interaction; and (iv) Align modality-specific spectral features via contrastive regularization to promote semantic and structural consistency. Experiments on three real-world benchmarks show consistent gains over strong baselines, particularly under sparse and cold-start settings. Additional analyses indicate that structured spectral modeling improves robustness and provides clearer diagnostics of how different bands contribute to performance.


翻译:多模态推荐旨在将协同信号与视觉和文本等异构内容信息相结合,但仍面临模态特定噪声、语义不一致性以及在用户-物品图上传播不稳定等挑战。这些问题常因简单的融合或浅层建模策略而加剧,导致泛化能力下降和鲁棒性不足。尽管近期研究探索了将频域作为分离稳定信号与噪声信号的视角,但大多数方法依赖于静态滤波或重新加权,缺乏对谱结构进行推理或适应模态特定可靠性的能力。为应对这些挑战,我们提出了一种面向频率感知多模态推荐的结构化谱推理(SSR)框架。我们的方法遵循四阶段流程:(i)通过图引导变换将基于图的多模态信号分解为谱带,以隔离语义粒度;(ii)利用谱带掩码调节带级可靠性,这是一种训练时掩码技术,通过预测一致性目标抑制脆弱的频率分量;(iii)使用低秩跨带交互的超谱推理融合互补的频率线索;(iv)通过对比正则化对齐模态特定的谱特征,以促进语义和结构一致性。在三个真实世界基准测试上的实验表明,相较于强基线模型取得了持续的性能提升,尤其在稀疏和冷启动场景下。进一步分析表明,结构化谱建模提高了鲁棒性,并为不同谱带如何影响性能提供了更清晰的诊断依据。

0
下载
关闭预览

相关内容

大语言模型在多模态推荐系统中的应用综述
专知会员服务
17+阅读 · 2025年5月17日
【SIGIR2025】在缺失模态场景中解耦与生成推荐模态
专知会员服务
7+阅读 · 2025年4月28日
《多模态适应与泛化》进展综述:从传统方法到基础模型
【ACMMM2024】用于多媒体推荐的模态平衡学习"
专知会员服务
13+阅读 · 2024年8月14日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
多模态深度学习综述,18页pdf
专知
51+阅读 · 2020年3月29日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
深度学习在推荐系统中的应用综述(最全)
七月在线实验室
17+阅读 · 2018年5月5日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员