Sequential Recommendation (SR) in multimodal settings typically relies on small frozen pretrained encoders, which limits semantic capacity and prevents Collaborative Filtering (CF) signals from being fully integrated into item representations. Inspired by the recent success of Large Language Models (LLMs) as high-capacity embedders, we investigate the use of Vision-Language Models (VLMs) as CF-aware multimodal encoders for SR. However, we find that standard contrastive supervised fine-tuning (SFT), which adapts VLMs for embedding generation and injects CF signals, can amplify its inherent modality collapse. In this state, optimization is dominated by a single modality while the other degrades, ultimately undermining recommendation accuracy. To address this, we propose VLM2Rec, a VLM embedder-based framework for multimodal sequential recommendation designed to ensure balanced modality utilization. Specifically, we introduce Weak-modality Penalized Contrastive Learning to rectify gradient imbalance during optimization and Cross-Modal Relational Topology Regularization to preserve geometric consistency between modalities. Extensive experiments demonstrate that VLM2Rec consistently outperforms state-of-the-art baselines in both accuracy and robustness across diverse scenarios.


翻译:多模态场景下的序列推荐通常依赖于小型冻结预训练编码器,这限制了语义容量并阻碍了协同过滤信号充分整合到物品表征中。受近期大型语言模型作为高容量嵌入器取得成功的启发,我们研究了将视觉-语言模型用作序列推荐中具有协同过滤感知能力的多模态编码器。然而,我们发现标准的对比监督微调方法虽然能适配VLM以生成嵌入并注入CF信号,却可能加剧其固有的模态坍缩问题。在此状态下,优化过程被单一模态主导而另一模态性能退化,最终损害推荐准确性。为解决这一问题,我们提出了VLM2Rec——一个基于VLM嵌入器的多模态序列推荐框架,旨在确保模态利用的平衡性。具体而言,我们引入了弱模态惩罚对比学习以修正优化过程中的梯度失衡,并采用跨模态关系拓扑正则化来保持模态间的几何一致性。大量实验表明,VLM2Rec在不同场景下的准确性与鲁棒性均持续优于现有最先进的基线方法。

0
下载
关闭预览

相关内容

大语言模型在多模态推荐系统中的应用综述
专知会员服务
17+阅读 · 2025年5月17日
多模态融合与视觉-语言模型:面向机器人视觉的综述
专知会员服务
35+阅读 · 2025年4月5日
【博士论文】学习视觉-语言表示以实现多模态理解
专知会员服务
28+阅读 · 2025年2月8日
【ACMMM2024】用于多媒体推荐的模态平衡学习"
专知会员服务
13+阅读 · 2024年8月14日
《高效多模态大型语言模型》综述
专知会员服务
73+阅读 · 2024年5月20日
【CVPR2024】非自回归序列到序列的视觉-语言模型
专知会员服务
22+阅读 · 2024年3月5日
使用多模态语言模型生成图像
专知会员服务
32+阅读 · 2023年8月23日
视觉语言多模态预训练综述
专知会员服务
122+阅读 · 2022年7月11日
数据受限条件下的多模态处理技术综述
专知
22+阅读 · 2022年7月16日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
“史诗狂怒行动”中的海军动态
专知会员服务
2+阅读 · 今天14:33
大语言模型同策略蒸馏研究综述
专知会员服务
0+阅读 · 今天14:22
无人机蜂群:研究、挑战、未来发展方向
专知会员服务
7+阅读 · 4月4日
【博士论文】已对齐 AI 系统的持续脆弱性
专知会员服务
7+阅读 · 4月3日
潜空间综述:基础、演化、机制、能力与展望
专知会员服务
13+阅读 · 4月3日
《人工智能时代的国防工业政策》
专知会员服务
8+阅读 · 4月3日
相关VIP内容
大语言模型在多模态推荐系统中的应用综述
专知会员服务
17+阅读 · 2025年5月17日
多模态融合与视觉-语言模型:面向机器人视觉的综述
专知会员服务
35+阅读 · 2025年4月5日
【博士论文】学习视觉-语言表示以实现多模态理解
专知会员服务
28+阅读 · 2025年2月8日
【ACMMM2024】用于多媒体推荐的模态平衡学习"
专知会员服务
13+阅读 · 2024年8月14日
《高效多模态大型语言模型》综述
专知会员服务
73+阅读 · 2024年5月20日
【CVPR2024】非自回归序列到序列的视觉-语言模型
专知会员服务
22+阅读 · 2024年3月5日
使用多模态语言模型生成图像
专知会员服务
32+阅读 · 2023年8月23日
视觉语言多模态预训练综述
专知会员服务
122+阅读 · 2022年7月11日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员