Modern industrial recommendation systems improve recommendation performance by integrating multimodal representations from pre-trained models into ID-based Click-Through Rate (CTR) prediction frameworks. However, existing approaches typically adopt modality-centric modeling strategies that process ID-based and multimodal embeddings independently, failing to capture fine-grained interactions between content semantics and behavioral signals. In this paper, we propose Decoupled Multimodal Fusion (DMF), which introduces a modality-enriched modeling strategy to enable fine-grained interactions between ID-based collaborative representations and multimodal representations for user interest modeling. Specifically, we construct target-aware features to bridge the semantic gap across different embedding spaces and leverage them as side information to enhance the effectiveness of user interest modeling. Furthermore, we design an inference-optimized attention mechanism that decouples the computation of target-aware features and ID-based embeddings before the attention layer, thereby alleviating the computational bottleneck introduced by incorporating target-aware features. To achieve comprehensive multimodal integration, DMF combines user interest representations learned under the modality-centric and modality-enriched modeling strategies. Offline experiments on public and industrial datasets demonstrate the effectiveness of DMF. Moreover, DMF has been deployed on the product recommendation system of the international e-commerce platform Lazada, achieving relative improvements of 5.30% in CTCVR and 7.43% in GMV with negligible computational overhead.


翻译:现代工业推荐系统通过将预训练模型的多模态表示集成到基于ID的点击率(CTR)预测框架中,提升了推荐性能。然而,现有方法通常采用以模态为中心的建模策略,独立处理基于ID的嵌入和多模态嵌入,未能捕捉内容语义与行为信号之间的细粒度交互。在本文中,我们提出解耦多模态融合(DMF),该方法引入了一种模态增强建模策略,能够实现基于ID的协同表示与多模态表示之间的细粒度交互,以用于用户兴趣建模。具体而言,我们构建了目标感知特征以桥接不同嵌入空间之间的语义鸿沟,并将其作为辅助信息来增强用户兴趣建模的有效性。此外,我们设计了一种推理优化的注意力机制,在注意力层之前解耦目标感知特征和基于ID的嵌入的计算,从而缓解引入目标感知特征所带来的计算瓶颈。为实现全面的多模态融合,DMF结合了在以模态为中心和模态增强建模策略下学习到的用户兴趣表示。在公开和工业数据集上的离线实验证明了DMF的有效性。此外,DMF已部署在国际电商平台Lazada的商品推荐系统中,在计算开销可忽略的情况下,实现了CTCVR相对提升5.30%和GMV相对提升7.43%。

0
下载
关闭预览

相关内容

大语言模型在多模态推荐系统中的应用综述
专知会员服务
17+阅读 · 2025年5月17日
【SIGIR2025】在缺失模态场景中解耦与生成推荐模态
专知会员服务
7+阅读 · 2025年4月28日
深度多模态数据融合
专知会员服务
55+阅读 · 2024年11月9日
多模态预训练模型综述
专知会员服务
94+阅读 · 2023年11月20日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
深度学习在CTR预估中的应用 | CTR深度模型大盘点
PaperWeekly
15+阅读 · 2018年4月11日
[推荐] 这些年,我用过的点击率(CTR)预估模型!!!
菜鸟的机器学习
28+阅读 · 2017年7月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
最新内容
无人机自主控制与人工智能:系统性综述
专知会员服务
10+阅读 · 今天7:25
巡飞弹与反无人机系统——现代战场的两大支柱
专知会员服务
3+阅读 · 今天6:54
《打造“黄金舰队”》57页报告
专知会员服务
3+阅读 · 今天6:52
《北约数字教官网络发展路径》128页报告
专知会员服务
2+阅读 · 今天6:33
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
7+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
7+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
《国防领域敏感性分析白皮书》
专知会员服务
9+阅读 · 6月25日
综述 | 从问答到任务完成:Agent系统与Harness设计
专知会员服务
10+阅读 · 6月24日
Agentic RL:框架、实践与长程智能体训练
专知会员服务
10+阅读 · 6月24日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员