Multimodal recommendation aims to enhance user preference modeling by leveraging rich item content such as images and text. Yet dominant systems fuse modalities in the spatial domain, obscuring the frequency structure of signals and amplifying misalignment and redundancy. We adopt a spectral information-theoretic view and show that, under an orthogonal transform that approximately block-diagonalizes bandwise covariances, the Gaussian Information Bottleneck objective decouples across frequency bands, providing a principled basis for separate-then-fuse paradigm. Building on this foundation, we propose FITMM, a Frequency-aware Information-Theoretic framework for multimodal recommendation. FITMM constructs graph-enhanced item representations, performs modality-wise spectral decomposition to obtain orthogonal bands, and forms lightweight within-band multimodal components. A residual, task-adaptive gate aggregates bands into the final representation. To control redundancy and improve generalization, we regularize training with a frequency-domain IB term that allocates capacity across bands (Wiener-like shrinkage with shut-off of weak bands). We further introduce a cross-modal spectral consistency loss that aligns modalities within each band. The model is jointly optimized with the standard recommendation loss. Extensive experiments on three real-world datasets demonstrate that FITMM consistently and significantly outperforms advanced baselines.


翻译:多模态推荐旨在通过利用图像和文本等丰富的物品内容来增强用户偏好建模。然而,主流系统在空间域融合模态,模糊了信号的频率结构,并放大了模态间的错位与冗余。我们采用谱信息论的视角,证明在一种近似块对角化带间协方差的正交变换下,高斯信息瓶颈目标在频带上解耦,从而为"先分离后融合"范式提供了理论基础。基于此,我们提出了FITMM,一个用于多模态推荐的频率感知信息论框架。FITMM构建图增强的物品表示,执行模态级谱分解以获得正交频带,并形成轻量级的带内多模态组件。一个残差式任务自适应门将各频带聚合为最终表示。为控制冗余并提升泛化能力,我们使用频域信息瓶颈项正则化训练,该项在各频带间分配容量(采用类似维纳收缩的机制并关闭弱频带)。我们进一步引入了跨模态谱一致性损失,以在每个频带内对齐不同模态。该模型与标准推荐损失联合优化。在三个真实世界数据集上的大量实验表明,FITMM持续且显著地优于先进的基线模型。

0
下载
关闭预览

相关内容

【SIGIR2025】在缺失模态场景中解耦与生成推荐模态
专知会员服务
7+阅读 · 2025年4月28日
【ACMMM2024】用于多媒体推荐的模态平衡学习"
专知会员服务
13+阅读 · 2024年8月14日
专知会员服务
186+阅读 · 2020年6月21日
最新《深度多模态数据分析》综述论文,26页pdf
专知会员服务
302+阅读 · 2020年6月16日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
【工大SCIR笔记】多模态信息抽取简述
深度学习自然语言处理
19+阅读 · 2020年4月3日
多模态深度学习综述,18页pdf
专知
51+阅读 · 2020年3月29日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关基金
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员