Multimodal retrieval models are becoming increasingly important in scenarios such as food delivery, where rich multimodal features can meet diverse user needs and enable precise retrieval. Mainstream approaches typically employ a dual-tower architecture between queries and items, and perform joint optimization of intra-tower and inter-tower tasks. However, we observe that joint optimization often leads to certain modalities dominating the training process, while other modalities are neglected. In addition, inconsistent training speeds across modalities can easily result in the one-epoch problem. To address these challenges, we propose a staged pretraining strategy, which guides the model to focus on specialized tasks at each stage, enabling it to effectively attend to and utilize multimodal features, and allowing flexible control over the training process at each stage to avoid the one-epoch problem. Furthermore, to better utilize the semantic IDs that compress high-dimensional multimodal embeddings, we design both generative and discriminative tasks to help the model understand the associations between SIDs, queries, and item features, thereby improving overall performance. Extensive experiments on large-scale real-world Meituan data demonstrate that our method achieves improvements of 3.80%, 2.64%, and 2.17% on R@5, R@10, and R@20, and 5.10%, 4.22%, and 2.09% on N@5, N@10, and N@20 compared to mainstream baselines. Online A/B testing on the Meituan platform shows that our approach achieves a 1.12% increase in revenue and a 1.02% increase in click-through rate, validating the effectiveness and superiority of our method in practical applications.


翻译:多模态检索模型在外卖等场景中日益重要,丰富的多模态特征能够满足用户多样化需求并实现精准检索。主流方法通常在查询与商品之间采用双塔架构,并对塔内任务与塔间任务进行联合优化。然而,我们观察到联合优化往往导致某些模态主导训练过程,而其他模态被忽视。此外,不同模态间训练速度的不一致容易引发单轮次训练问题。为应对这些挑战,我们提出一种分阶段预训练策略,该策略引导模型在各阶段专注于特定任务,使其能够有效关注并利用多模态特征,并允许灵活控制各阶段的训练过程以避免单轮次问题。进一步地,为更好地利用压缩高维多模态嵌入的语义ID(SID),我们设计了生成式与判别式任务,以帮助模型理解SID、查询与商品特征之间的关联,从而提升整体性能。基于美团大规模真实数据的大量实验表明,相较于主流基线方法,我们的方法在R@5、R@10与R@20指标上分别提升了3.80%、2.64%与2.17%,在N@5、N@10与N@20指标上分别提升了5.10%、4.22%与2.09%。在美团平台上的在线A/B测试显示,我们的方法实现了收入提升1.12%与点击率提升1.02%,验证了该方法在实际应用中的有效性与优越性。

0
下载
关闭预览

相关内容

多模态复合编辑与检索综述
专知会员服务
25+阅读 · 2024年9月14日
多模态预训练模型综述
专知会员服务
94+阅读 · 2023年11月20日
视觉语言多模态预训练综述
专知会员服务
122+阅读 · 2022年7月11日
专知会员服务
53+阅读 · 2021年8月13日
专知会员服务
66+阅读 · 2021年3月21日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
最新《深度多模态数据分析》综述论文,26页pdf
专知会员服务
302+阅读 · 2020年6月16日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
多模态深度学习综述,18页pdf
专知
51+阅读 · 2020年3月29日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
人工智能顶刊TPAMI2019最新《多模态机器学习综述》
人工智能学家
29+阅读 · 2019年1月19日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
多模态复合编辑与检索综述
专知会员服务
25+阅读 · 2024年9月14日
多模态预训练模型综述
专知会员服务
94+阅读 · 2023年11月20日
视觉语言多模态预训练综述
专知会员服务
122+阅读 · 2022年7月11日
专知会员服务
53+阅读 · 2021年8月13日
专知会员服务
66+阅读 · 2021年3月21日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
最新《深度多模态数据分析》综述论文,26页pdf
专知会员服务
302+阅读 · 2020年6月16日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员