The online emergence of multi-modal sharing platforms (eg, TikTok, Youtube) is powering personalized recommender systems to incorporate various modalities (eg, visual, textual and acoustic) into the latent user representations. While existing works on multi-modal recommendation exploit multimedia content features in enhancing item embeddings, their model representation capability is limited by heavy label reliance and weak robustness on sparse user behavior data. Inspired by the recent progress of self-supervised learning in alleviating label scarcity issue, we explore deriving self-supervision signals with effectively learning of modality-aware user preference and cross-modal dependencies. To this end, we propose a new Multi-Modal Self-Supervised Learning (MMSSL) method which tackles two key challenges. Specifically, to characterize the inter-dependency between the user-item collaborative view and item multi-modal semantic view, we design a modality-aware interactive structure learning paradigm via adversarial perturbations for data augmentation. In addition, to capture the effects that user's modality-aware interaction pattern would interweave with each other, a cross-modal contrastive learning approach is introduced to jointly preserve the inter-modal semantic commonality and user preference diversity. Experiments on real-world datasets verify the superiority of our method in offering great potential for multimedia recommendation over various state-of-the-art baselines. The implementation is released at: https://github.com/HKUDS/MMSSL.


翻译:多模态共享平台(如抖音、YouTube)的在线兴起,正推动个性化推荐系统将多种模态(如视觉、文本和音频)融入用户隐式表示。现有基于多模态推荐的工作虽利用多媒体内容特征增强物品嵌入,但其模型表示能力受限于对标签的强依赖以及在稀疏用户行为数据上的弱鲁棒性。受自监督学习在缓解标签稀缺问题上的最新进展启发,我们探索在有效学习模态感知的用户偏好及跨模态依赖过程中提取自监督信号。为此,我们提出一种新型多模态自监督学习方法(MMSSL),旨在解决两大关键挑战。具体而言:为刻画用户-物品协同视图与物品多模态语义视图间的相互依赖关系,我们设计了一种通过对抗扰动实现数据增强的模态感知交互结构学习范式;此外,为捕获用户模态感知交互模式相互交织的影响,我们引入跨模态对比学习方法,以联合保持模态间语义共性与用户偏好多样性。在真实数据集上的实验证明,该方法在多媒体推荐中优于多种当前最优基线方法,展现出巨大潜力。实现代码已开源在:https://github.com/HKUDS/MMSSL。

0
下载
关闭预览

相关内容

【牛津大学博士论文】多模态自监督学习,172页pdf
专知会员服务
136+阅读 · 2022年10月4日
【CIKM2020】多模态知识图谱推荐系统,Multi-modal KG for RS
专知会员服务
98+阅读 · 2020年8月24日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
167+阅读 · 2020年3月18日
专知会员服务
88+阅读 · 2020年1月20日
CIKM2022推荐系统论文集锦
机器学习与推荐算法
1+阅读 · 2022年9月22日
入门推荐系统必读的10篇基准论文
机器学习与推荐算法
0+阅读 · 2022年9月6日
ICDE2022推荐系统论文集锦
机器学习与推荐算法
16+阅读 · 2022年8月9日
KDD22 | 推荐系统论文集锦(附pdf下载)
图与推荐
2+阅读 · 2022年7月25日
IJCAI2022推荐系统论文集锦
机器学习与推荐算法
0+阅读 · 2022年5月20日
LibRec 精选:推荐系统的常用数据集
LibRec智能推荐
17+阅读 · 2019年2月15日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
6+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
8+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年5月26日
Arxiv
15+阅读 · 2021年6月27日
VIP会员
最新内容
CVPR 2026教程:统一多模态模型走向收敛之路
专知会员服务
0+阅读 · 今天14:41
《人工智能在网络防御中的机遇》
专知会员服务
3+阅读 · 今天12:49
认知战:定义与能力发展
专知会员服务
4+阅读 · 今天9:25
乌军利用美国“黄蜂”无人机摧毁俄军后勤
专知会员服务
7+阅读 · 6月7日
《支持作战级人机协同智能的交互式OODA流程》
专知会员服务
15+阅读 · 6月7日
ICML 2026 | SARDI:扩散语言模型的自增强检索
专知会员服务
8+阅读 · 6月6日
相关VIP内容
相关资讯
CIKM2022推荐系统论文集锦
机器学习与推荐算法
1+阅读 · 2022年9月22日
入门推荐系统必读的10篇基准论文
机器学习与推荐算法
0+阅读 · 2022年9月6日
ICDE2022推荐系统论文集锦
机器学习与推荐算法
16+阅读 · 2022年8月9日
KDD22 | 推荐系统论文集锦(附pdf下载)
图与推荐
2+阅读 · 2022年7月25日
IJCAI2022推荐系统论文集锦
机器学习与推荐算法
0+阅读 · 2022年5月20日
LibRec 精选:推荐系统的常用数据集
LibRec智能推荐
17+阅读 · 2019年2月15日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
6+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
8+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员