This paper studies the multi-modal recommendation problem, where the item multi-modality information (e.g., images and textual descriptions) is exploited to improve the recommendation accuracy. Besides the user-item interaction graph, existing state-of-the-art methods usually use auxiliary graphs (e.g., user-user or item-item relation graph) to augment the learned representations of users and/or items. These representations are often propagated and aggregated on auxiliary graphs using graph convolutional networks, which can be prohibitively expensive in computation and memory, especially for large graphs. Moreover, existing multi-modal recommendation methods usually leverage randomly sampled negative examples in Bayesian Personalized Ranking (BPR) loss to guide the learning of user/item representations, which increases the computational cost on large graphs and may also bring noisy supervision signals into the training process. To tackle the above issues, we propose a novel self-supervised multi-modal recommendation model, dubbed BM3, which requires neither augmentations from auxiliary graphs nor negative samples. Specifically, BM3 first bootstraps latent contrastive views from the representations of users and items with a simple dropout augmentation. It then jointly optimizes three multi-modal objectives to learn the representations of users and items by reconstructing the user-item interaction graph and aligning modality features under both inter- and intra-modality perspectives. BM3 alleviates both the need for contrasting with negative examples and the complex graph augmentation from an additional target network for contrastive view generation. We show BM3 outperforms prior recommendation models on three datasets with number of nodes ranging from 20K to 200K, while achieving a 2-9X reduction in training time. Our code is available at https://github.com/enoche/BM3.


翻译:本文研究多模态推荐问题,即利用物品的多模态信息(如图像和文本描述)提升推荐精度。除用户-物品交互图外,现有最优方法通常采用辅助图(如用户-用户或物品-物品关系图)来增强用户和/或物品的表示学习。这些表示常通过图卷积网络在辅助图上进行传播和聚合,这在计算和内存上开销极大,尤其针对大规模图。此外,现有方法通常在贝叶斯个性化排序损失中利用随机采样的负例指导用户/物品表示学习,这不仅增加大规模图的计算成本,还可能引入噪声监督信号。针对上述问题,我们提出新型自监督多模态推荐模型BM3,该模型无需辅助图增强或负样本。具体而言,BM3首先通过简单的丢弃增强从用户与物品表示中引导出隐式对比视图,随后联合优化三个多模态目标:通过重建用户-物品交互图,并在模态间与模态内对齐特征,学习用户与物品表示。BM3消除了对比负例的需求,也无需为生成对比视图而构建额外目标网络的复杂图增强。实验表明,在节点规模2万至20万的三类数据集上,BM3性能超越现有推荐模型,同时训练时间减少2-9倍。代码已开源:https://github.com/enoche/BM3。

0
下载
关闭预览

相关内容

【KDD 2020】基于互信息最大化的多知识图谱语义融合
专知会员服务
43+阅读 · 2020年9月7日
近期必读的五篇KDD 2020【推荐系统 (RS) 】相关论文
专知会员服务
65+阅读 · 2020年8月11日
KDD 2022 | 判别式自监督学习的个性化推荐
PaperWeekly
0+阅读 · 2022年9月17日
KDD2022 | 基于自监督超图Transformer的推荐算法研究
机器学习与推荐算法
2+阅读 · 2022年8月26日
论文浅尝 - CIKM2020 | 用于推荐系统的多模态知识图谱
开放知识图谱
12+阅读 · 2020年12月17日
LibRec 精选:推荐系统的常用数据集
LibRec智能推荐
17+阅读 · 2019年2月15日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
【论文】图上的表示学习综述
机器学习研究会
15+阅读 · 2017年9月24日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
15+阅读 · 2021年6月27日
Interest-aware Message-Passing GCN for Recommendation
Arxiv
12+阅读 · 2021年2月19日
VIP会员
最新内容
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
2+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
6+阅读 · 6月24日
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
5+阅读 · 6月24日
在人工智能加速决策环境中拓展OODA循环
专知会员服务
6+阅读 · 6月24日
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
5+阅读 · 6月24日
综述 | 世界动作模型:少做梦,多行动
专知会员服务
7+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
12+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关VIP内容
【KDD 2020】基于互信息最大化的多知识图谱语义融合
专知会员服务
43+阅读 · 2020年9月7日
近期必读的五篇KDD 2020【推荐系统 (RS) 】相关论文
专知会员服务
65+阅读 · 2020年8月11日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员