RQ-GMM：用于CTR预测中多模态语义离散化的残差量化高斯混合模型 (RQ-GMM: Residual Quantized Gaussian Mixture Model for Multimodal Semantic Discretization in CTR Prediction) - 专知论文

会员服务 ·

0

CTR · 多模 · 模态 · 高斯混合 · 高斯混合模型 ·

RQ-GMM: Residual Quantized Gaussian Mixture Model for Multimodal Semantic Discretization in CTR Prediction

翻译：RQ-GMM：用于CTR预测中多模态语义离散化的残差量化高斯混合模型

Ziye Tong,Jiahao Liu,Weimin Zhang,Hongji Ruan,Derick Tang,Zhanpeng Zeng,Qinsong Zeng,Peng Zhang,Tun Lu,Ning Gu

from arxiv, Under review

Multimodal content is crucial for click-through rate (CTR) prediction. However, directly incorporating continuous embeddings from pre-trained models into CTR models yields suboptimal results due to misaligned optimization objectives and convergence speed inconsistency during joint training. Discretizing embeddings into semantic IDs before feeding them into CTR models offers a more effective solution, yet existing methods suffer from limited codebook utilization, reconstruction accuracy, and semantic discriminability. We propose RQ-GMM (Residual Quantized Gaussian Mixture Model), which introduces probabilistic modeling to better capture the statistical structure of multimodal embedding spaces. Through Gaussian Mixture Models combined with residual quantization, RQ-GMM achieves superior codebook utilization and reconstruction accuracy. Experiments on public datasets and online A/B tests on a large-scale short-video platform serving hundreds of millions of users demonstrate substantial improvements: RQ-GMM yields a 1.502% gain in Advertiser Value over strong baselines. The method has been fully deployed, serving daily recommendations for hundreds of millions of users.

翻译：多模态内容对于点击率（CTR）预测至关重要。然而，由于联合训练期间优化目标不一致以及收敛速度不匹配，直接将来自预训练模型的连续嵌入纳入CTR模型会导致次优结果。在将嵌入输入CTR模型之前，将其离散化为语义ID提供了一种更有效的解决方案，但现有方法存在码本利用率低、重建精度差和语义区分能力不足的问题。我们提出了RQ-GMM（残差量化高斯混合模型），该方法引入概率建模以更好地捕捉多模态嵌入空间的统计结构。通过结合高斯混合模型与残差量化，RQ-GMM实现了卓越的码本利用率和重建精度。在公共数据集上的实验以及在一个服务于数亿用户的大型短视频平台上进行的在线A/B测试均证明了显著的改进：与强大的基线相比，RQ-GMM在广告主价值指标上带来了1.502%的提升。该方法已全面部署，为数亿用户的每日推荐提供服务。

0

相关内容

CTR

大语言模型在多模态推荐系统中的应用综述

大语言模型在多模态推荐系统中的应用综述

专知会员服务

17+阅读 · 2025年5月17日

MME-Survey：多模态大型语言模型评估的综合性调查

MME-Survey：多模态大型语言模型评估的综合性调查

专知会员服务

43+阅读 · 2024年12月1日

多模态预训练模型综述

多模态预训练模型综述

专知会员服务

94+阅读 · 2023年11月20日

视觉语言多模态预训练综述

视觉语言多模态预训练综述

专知会员服务

122+阅读 · 2022年7月11日

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

专知会员服务

27+阅读 · 2022年3月22日

【ICCV2021】无需检测器提取特征！LeCun团队提出MDETR：实现真正的端到端多模态推理

专知会员服务

19+阅读 · 2021年7月29日

【WSDM2021】多交互注意力网络细粒度特征学习的CTR预测

【WSDM2021】多交互注意力网络细粒度特征学习的CTR预测

专知会员服务

25+阅读 · 2020年12月27日

【NeurIPS 2020京东】基于卡尔曼滤波的注意力机制—广告点击率预估中的用户行为建模

专知会员服务

26+阅读 · 2020年10月30日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知会员服务

55+阅读 · 2020年3月17日

【工大SCIR笔记】多模态信息抽取简述

【工大SCIR笔记】多模态信息抽取简述

深度学习自然语言处理

19+阅读 · 2020年4月3日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

雷锋网

12+阅读 · 2019年3月26日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

深度学习在CTR预估中的应用 | CTR深度模型大盘点

深度学习在CTR预估中的应用 | CTR深度模型大盘点

PaperWeekly

15+阅读 · 2018年4月11日

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

AI研习社

14+阅读 · 2018年2月17日

[推荐] 这些年，我用过的点击率（CTR）预估模型！！！

[推荐] 这些年，我用过的点击率（CTR）预估模型！！！

菜鸟的机器学习

28+阅读 · 2017年7月31日

不规则问题驱动下的多维度SAR回波混合粒度并行模拟

国家自然科学基金

0+阅读 · 2015年12月31日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

14+阅读 · 2015年12月31日

基于秩一张量近似的多目标跟踪

国家自然科学基金

0+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于Phase-type分布的多状态系统可靠性模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

短波认知ALE系统中基于深度学习-GP混合模型的多维谱预测方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

广义线性模型的组变量选择及其在信用评分中的应用

国家自然科学基金

2+阅读 · 2014年12月31日

DenseMLLM: Standard Multimodal LLMs are Intrinsic Dense Predictors

Arxiv

0+阅读 · 2月15日

DMESR: Dual-view MLLM-based Enhancing Framework for Multimodal Sequential Recommendation

Arxiv

0+阅读 · 2月14日

Jointly Optimizing Debiased CTR and Uplift for Coupons Marketing: A Unified Causal Framework

Arxiv

0+阅读 · 2月13日

Hi-SAM: A Hierarchical Structure-Aware Multi-modal Framework for Large-Scale Recommendation

Arxiv

0+阅读 · 2月12日

EST: Towards Efficient Scaling Laws in Click-Through Rate Prediction via Unified Modeling

Arxiv

0+阅读 · 2月11日

Quantifying Multimodal Imbalance: A GMM-Guided Adaptive Loss for Audio-Visual Learning

Arxiv

0+阅读 · 2月10日

MaD-Mix: Multi-Modal Data Mixtures via Latent Space Coupling for Vision-Language Model Training

Arxiv

0+阅读 · 2月8日

R2LED: Equipping Retrieval and Refinement in Lifelong User Modeling with Semantic IDs for CTR Prediction

Arxiv

0+阅读 · 2月6日

CSR-Bench: A Benchmark for Evaluating the Cross-modal Safety and Reliability of MLLMs

Arxiv

0+阅读 · 2月3日

SAME: Stabilized Mixture-of-Experts for Multimodal Continual Instruction Tuning

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

高斯混合模型

相关VIP内容

大语言模型在多模态推荐系统中的应用综述

大语言模型在多模态推荐系统中的应用综述

专知会员服务

17+阅读 · 2025年5月17日

MME-Survey：多模态大型语言模型评估的综合性调查

MME-Survey：多模态大型语言模型评估的综合性调查

专知会员服务

43+阅读 · 2024年12月1日

多模态预训练模型综述

多模态预训练模型综述

专知会员服务

94+阅读 · 2023年11月20日

视觉语言多模态预训练综述

视觉语言多模态预训练综述

专知会员服务

122+阅读 · 2022年7月11日

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

专知会员服务

27+阅读 · 2022年3月22日

【ICCV2021】无需检测器提取特征！LeCun团队提出MDETR：实现真正的端到端多模态推理

专知会员服务

19+阅读 · 2021年7月29日

【WSDM2021】多交互注意力网络细粒度特征学习的CTR预测

【WSDM2021】多交互注意力网络细粒度特征学习的CTR预测

专知会员服务

25+阅读 · 2020年12月27日

【NeurIPS 2020京东】基于卡尔曼滤波的注意力机制—广告点击率预估中的用户行为建模

专知会员服务

26+阅读 · 2020年10月30日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知会员服务

55+阅读 · 2020年3月17日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

【工大SCIR笔记】多模态信息抽取简述

【工大SCIR笔记】多模态信息抽取简述

深度学习自然语言处理

19+阅读 · 2020年4月3日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

雷锋网

12+阅读 · 2019年3月26日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

深度学习在CTR预估中的应用 | CTR深度模型大盘点

深度学习在CTR预估中的应用 | CTR深度模型大盘点

PaperWeekly

15+阅读 · 2018年4月11日

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

AI研习社

14+阅读 · 2018年2月17日

[推荐] 这些年，我用过的点击率（CTR）预估模型！！！

[推荐] 这些年，我用过的点击率（CTR）预估模型！！！

菜鸟的机器学习

28+阅读 · 2017年7月31日

相关论文

DenseMLLM: Standard Multimodal LLMs are Intrinsic Dense Predictors

Arxiv

0+阅读 · 2月15日

DMESR: Dual-view MLLM-based Enhancing Framework for Multimodal Sequential Recommendation

Arxiv

0+阅读 · 2月14日

Jointly Optimizing Debiased CTR and Uplift for Coupons Marketing: A Unified Causal Framework

Arxiv

0+阅读 · 2月13日

Hi-SAM: A Hierarchical Structure-Aware Multi-modal Framework for Large-Scale Recommendation

Arxiv

0+阅读 · 2月12日

EST: Towards Efficient Scaling Laws in Click-Through Rate Prediction via Unified Modeling

Arxiv

0+阅读 · 2月11日

Quantifying Multimodal Imbalance: A GMM-Guided Adaptive Loss for Audio-Visual Learning

Arxiv

0+阅读 · 2月10日

MaD-Mix: Multi-Modal Data Mixtures via Latent Space Coupling for Vision-Language Model Training

Arxiv

0+阅读 · 2月8日

R2LED: Equipping Retrieval and Refinement in Lifelong User Modeling with Semantic IDs for CTR Prediction

Arxiv

0+阅读 · 2月6日

CSR-Bench: A Benchmark for Evaluating the Cross-modal Safety and Reliability of MLLMs

Arxiv

0+阅读 · 2月3日

SAME: Stabilized Mixture-of-Experts for Multimodal Continual Instruction Tuning

Arxiv

0+阅读 · 2月2日

相关基金

不规则问题驱动下的多维度SAR回波混合粒度并行模拟

国家自然科学基金

0+阅读 · 2015年12月31日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

14+阅读 · 2015年12月31日

基于秩一张量近似的多目标跟踪

国家自然科学基金

0+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于Phase-type分布的多状态系统可靠性模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

短波认知ALE系统中基于深度学习-GP混合模型的多维谱预测方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

广义线性模型的组变量选择及其在信用评分中的应用

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员