Multimodal recommendation has emerged as a mainstream paradigm, typically leveraging text and visual embeddings extracted from pre-trained models such as Sentence-BERT, Vision Transformers, and ResNet. This approach is founded on the intuitive assumption that incorporating multimodal embeddings can enhance recommendation performance. However, despite its popularity, this assumption lacks comprehensive empirical verification. This presents a critical research gap. To address it, we pose the central research question of this paper: Are multimodal embeddings truly beneficial for recommendation? To answer this question, we conduct a large-scale empirical study examining the role of text and visual embeddings in modern multimodal recommendation models, both as a whole and individually. Specifically, we pose two key research questions: (1) Do multimodal embeddings as a whole improve recommendation performance? (2) Is each individual modality - text and image - useful when used alone? To isolate the effect of individual modalities - text or visual - we employ a modality knockout strategy by setting the corresponding embeddings to either constant values or random noise. To ensure the scale and comprehensiveness of our study, we evaluate 14 widely used state-of-the-art multimodal recommendation models. Our findings reveal that: (1) multimodal embeddings generally enhance recommendation performance - particularly when integrated through more sophisticated graph-based fusion models. Surprisingly, commonly adopted baseline models with simple fusion schemes, such as VBPR and BM3, show only limited gains. (2) The text modality alone achieves performance comparable to the full multimodal setting in most cases, whereas the image modality alone does not. These results offer foundational insights and practical guidance for the multimodal recommendation community.


翻译:多模态推荐已成为主流范式,通常利用从预训练模型(如Sentence-BERT、Vision Transformers和ResNet)中提取的文本与视觉嵌入。该方法基于一个直观假设:引入多模态嵌入能够提升推荐性能。然而,尽管该范式广为流行,这一假设仍缺乏全面的实证验证,形成了关键的研究空白。为填补这一空白,本文提出核心研究问题:多模态嵌入是否真正有益于推荐系统?为解答此问题,我们开展了大规模实证研究,系统考察了文本与视觉嵌入在现代多模态推荐模型中的作用——既包括整体作用,也涵盖个体贡献。具体而言,我们提出两个关键研究问题:(1)多模态嵌入作为整体是否能提升推荐性能?(2)文本与图像这两种独立模态在单独使用时是否有效?为分离文本或视觉等单一模态的影响,我们采用模态剔除策略,将对应嵌入设置为常数值或随机噪声。为确保研究的规模性与全面性,我们评估了14个广泛使用的先进多模态推荐模型。研究发现:(1)多模态嵌入通常能提升推荐性能——尤其在通过更复杂的基于图的融合模型进行整合时。令人惊讶的是,采用简单融合方案的常用基线模型(如VBPR和BM3)仅表现出有限的性能增益。(2)单独使用文本模态在多数情况下能达到与完整多模态设置相当的性能,而单独使用图像模态则无法实现。这些结果为多模态推荐领域提供了基础性见解与实践指导。

0
下载
关闭预览

相关内容

大语言模型在多模态推荐系统中的应用综述
专知会员服务
17+阅读 · 2025年5月17日
多模态推荐系统综述:近期进展与未来方向
专知会员服务
37+阅读 · 2025年2月27日
大规模多模态模型数据集、应用类别与分类学综述
专知会员服务
58+阅读 · 2024年12月25日
多模态深度学习
专知会员服务
136+阅读 · 2023年1月15日
【Paul Liang】多模态深度学习,Multimodal Deep Learning
专知会员服务
185+阅读 · 2022年4月12日
专知会员服务
149+阅读 · 2020年9月6日
数据受限条件下的多模态处理技术综述
专知
22+阅读 · 2022年7月16日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
多模态深度学习综述,18页pdf
专知
51+阅读 · 2020年3月29日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
深度学习在推荐系统中的应用综述(最全)
七月在线实验室
17+阅读 · 2018年5月5日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
相关VIP内容
大语言模型在多模态推荐系统中的应用综述
专知会员服务
17+阅读 · 2025年5月17日
多模态推荐系统综述:近期进展与未来方向
专知会员服务
37+阅读 · 2025年2月27日
大规模多模态模型数据集、应用类别与分类学综述
专知会员服务
58+阅读 · 2024年12月25日
多模态深度学习
专知会员服务
136+阅读 · 2023年1月15日
【Paul Liang】多模态深度学习,Multimodal Deep Learning
专知会员服务
185+阅读 · 2022年4月12日
专知会员服务
149+阅读 · 2020年9月6日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员