RAD-DPO: Robust Adaptive Denoising Direct Preference Optimization for Generative Retrieval in E-commerce - 专知论文

会员服务 ·

0

结构 · 鲁棒 · 生成式检索 · 偏好优化 · 电商 ·

RAD-DPO: Robust Adaptive Denoising Direct Preference Optimization for Generative Retrieval in E-commerce

翻译：RAD-DPO：面向电商生成式检索的鲁棒自适应去噪直接偏好优化

Zhiguo Chen,Guohao Sun,Yiming Qiu,Xingzhi Yao,Mingming Li,Huimu Wang,Yangqi Zhang,Songlin Wang,Sulong Xu

Generative Retrieval (GR) is rapidly transforming e-commerce search by replacing traditional multi-stage pipelines with the autoregressive decoding of structured Semantic IDs (SIDs). Despite this architectural efficiency, aligning GR models with nuanced, real-world user preferences remains a critical challenge. While Direct Preference Optimization (DPO) offers an efficient alignment solution, its direct application to structured SIDs suffers from three limitations: (i) it penalizes shared hierarchical prefixes, causing gradient conflicts; (ii) it is vulnerable to noisy pseudo-negatives from implicit feedback; and (iii) in multi-label queries with multiple relevant items, it exacerbates a probability "squeezing effect" among valid candidates. To address these issues, we propose RAD-DPO, which introduces token-level gradient detachment to protect prefix structures, similarity-based dynamic reward weighting to mitigate label noise, and a multi-label global contrastive objective integrated with global SFT loss to explicitly expand positive coverage. Extensive offline evaluations and large-scale online A/B testing on JD.com's core search engine demonstrate that RAD-DPO achieves significant improvements in both retrieval precision and training efficiency, proving its robustness for massive industrial deployments.

翻译：生成式检索（GR）通过结构化语义ID（SIDs）的自回归解码替代传统多阶段流水线，正迅速变革电子商务搜索。尽管这种架构具有效率优势，但如何使GR模型与复杂、真实的用户偏好对齐仍是一项关键挑战。直接偏好优化（DPO）虽提供了高效的对齐方案，但其直接应用于结构化SIDs时存在三个局限：（i）会惩罚共享层级前缀结构，导致梯度冲突；（ii）易受隐式反馈中噪声伪负样本的影响；（iii）在多标签查询（包含多个相关物品）场景下，会加剧有效候选对象间的概率"挤压效应"。针对上述问题，我们提出RAD-DPO方法，通过引入令牌级梯度分离保护前缀结构、基于相似度的动态奖励加权缓解标签噪声，并结合全局SFT损失的多元标签全局对比目标显式扩展正样本覆盖范围。在京东核心搜索引擎上的离线评估与大规模在线A/B测试表明，RAD-DPO在检索精度与训练效率上均取得显著提升，验证了其面向大规模工业部署的鲁棒性。

0

相关内容

【博士论文】用于搜索的 Transformer 模型：检索、鲁棒性与拒绝机制

【博士论文】用于搜索的 Transformer 模型：检索、鲁棒性与拒绝机制

专知会员服务

10+阅读 · 2月8日

多样化偏好优化

多样化偏好优化

专知会员服务

12+阅读 · 2025年2月3日

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

专知会员服务

49+阅读 · 2024年12月17日

【新书】基于RAG的生成式AI：使用LlamaIndex、Deep Lake和Pinecone构建自定义的检索增强生成管道

【新书】基于RAG的生成式AI：使用LlamaIndex、Deep Lake和Pinecone构建自定义的检索增强生成管道

专知会员服务

63+阅读 · 2024年12月15日

直接偏好优化中的数据集、理论、变体和应用的综合综述

直接偏好优化中的数据集、理论、变体和应用的综合综述

专知会员服务

15+阅读 · 2024年10月24日

【新书】利用先进的生成式 AI 技术（如 RAG），释放数据的潜力，推动创新并获取战略优势

【新书】利用先进的生成式 AI 技术（如 RAG），释放数据的潜力，推动创新并获取战略优势

专知会员服务

57+阅读 · 2024年10月4日

生成式信息检索综述

生成式信息检索综述

专知会员服务

35+阅读 · 2024年6月5日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

【AAAI2023】DPText-DETR: 基于动态点query的场景文本检测，更高更快更鲁棒

【AAAI2023】DPText-DETR: 基于动态点query的场景文本检测，更高更快更鲁棒

专知会员服务

17+阅读 · 2023年1月23日

【WSDM 2020】RecVAE:一种新的变分自编码器，用于具有隐式反馈的Top-N推荐（RecVAE: a New Variational Autoencoder for Top-NRecommendations with Implicit Feedback）

【WSDM 2020】RecVAE:一种新的变分自编码器，用于具有隐式反馈的Top-N推荐（RecVAE: a New Variational Autoencoder for Top-NRecommendations with Implicit Feedback）

专知会员服务

32+阅读 · 2019年12月26日

搜索query意图识别的演进

搜索query意图识别的演进

DataFunTalk

13+阅读 · 2020年11月15日

KDD 2020 | 优势特征蒸馏在淘宝推荐中的应用

KDD 2020 | 优势特征蒸馏在淘宝推荐中的应用

AINLP

10+阅读 · 2020年7月9日

淘宝 at KDD 2020，提出M2GRL优化大规模推荐中的多任务多视角图表示学习

淘宝 at KDD 2020，提出M2GRL优化大规模推荐中的多任务多视角图表示学习

AINLP

23+阅读 · 2020年6月16日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

KDD 2019 | 自动探索特征组合，第四范式提出新方法AutoCross

KDD 2019 | 自动探索特征组合，第四范式提出新方法AutoCross

机器之心

18+阅读 · 2019年6月12日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

推荐算法：Match与Rank模型的交织配合

推荐算法：Match与Rank模型的交织配合

从0到1

15+阅读 · 2017年12月18日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

以用户为中心的电子商务大数据偏好查询处理与优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于在线消费者购买意向挖掘的个性化推荐研究

国家自然科学基金

0+阅读 · 2015年12月31日

通信网络在不确定业务流量需求下的路由鲁棒性优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

面向生物特征识别的鲁棒判别结构化特征表示方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

基于人眼关注度与情感分析的电子商务智能推荐计算

国家自然科学基金

0+阅读 · 2014年12月31日

DynamicPO: Dynamic Preference Optimization for Recommendation

Arxiv

0+阅读 · 5月1日

UniRec: Bridging the Expressive Gap between Generative and Discriminative Recommendation via Chain-of-Attribute

Arxiv

0+阅读 · 4月22日

UniRec: Bridging the Expressive Gap between Generative and Discriminative Recommendation via Chain-of-Attribute

Arxiv

0+阅读 · 4月21日

On the Equivalence Between Auto-Regressive Next Token Prediction and Full-Item-Vocabulary Maximum Likelihood Estimation in Generative Recommendation--A Short Note

Arxiv

0+阅读 · 4月17日

UniRec: Bridging the Expressive Gap between Generative and Discriminative Recommendation via Chain-of-Attribute

Arxiv

0+阅读 · 4月14日

MBGR: Multi-Business Prediction for Generative Recommendation at Meituan

Arxiv

0+阅读 · 4月3日

Aligning Multimodal Sequential Recommendations via Robust Direct Preference Optimization with Sparse MoE

Arxiv

0+阅读 · 3月31日

OneSearch-V2: The Latent Reasoning Enhanced Self-distillation Generative Search Framework

Arxiv

0+阅读 · 3月25日

AIGQ: An End-to-End Hybrid Generative Architecture for E-commerce Query Recommendation

Arxiv

0+阅读 · 3月20日

Role-Augmented Intent-Driven Generative Search Engine Optimization

Arxiv

0+阅读 · 3月18日

VIP会员

文章信息

相关主题

生成式检索

最新内容

ICML 2026 教程 | 数值优化理论还重要吗？

ICML 2026 教程 | 数值优化理论还重要吗？

专知会员服务

2+阅读 · 7月26日

ICM 2026 | 陶哲轩：人工智能时代的数学

ICM 2026 | 陶哲轩：人工智能时代的数学

专知会员服务

1+阅读 · 7月26日

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

专知会员服务

4+阅读 · 7月26日

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

专知会员服务

6+阅读 · 7月26日

《先进防空系统选型战略框架：基于巴基斯坦的实证启示》

《先进防空系统选型战略框架：基于巴基斯坦的实证启示》

专知会员服务

5+阅读 · 7月26日

《反无人机交战场景下的战斗归零研究》

《反无人机交战场景下的战斗归零研究》

专知会员服务

4+阅读 · 7月26日

霍尔木兹与不对称作战时代：水雷、无人系统与海军力量的重新定义

霍尔木兹与不对称作战时代：水雷、无人系统与海军力量的重新定义

专知会员服务

3+阅读 · 7月26日

博士论文 | 用代码结构感知方法推进代码大模型

博士论文 | 用代码结构感知方法推进代码大模型

专知会员服务

5+阅读 · 7月25日

综述 | 遥感多模态大模型：领域专用还是通用模型？

综述 | 遥感多模态大模型：领域专用还是通用模型？

专知会员服务

5+阅读 · 7月25日

《面向指挥控制训练与实时北约兼容数据分发的战术模拟器》

《面向指挥控制训练与实时北约兼容数据分发的战术模拟器》

专知会员服务

4+阅读 · 7月25日

《决策模型比较研究》

《决策模型比较研究》

专知会员服务

11+阅读 · 7月25日

全球军事与武器工业中的人工智能：应用、方法与影响（万字长文）

全球军事与武器工业中的人工智能：应用、方法与影响（万字长文）

专知会员服务

7+阅读 · 7月25日

《美军水下战与海床战概述及本地实施》

《美军水下战与海床战概述及本地实施》

专知会员服务

6+阅读 · 7月25日

面向未来冲突推进陆军情报体制改革

面向未来冲突推进陆军情报体制改革

专知会员服务

5+阅读 · 7月25日

人工智能赋能无人机：俄乌冲突案例及其深远影响（万字长文）

人工智能赋能无人机：俄乌冲突案例及其深远影响（万字长文）

专知会员服务

6+阅读 · 7月25日

相关VIP内容

【博士论文】用于搜索的 Transformer 模型：检索、鲁棒性与拒绝机制

【博士论文】用于搜索的 Transformer 模型：检索、鲁棒性与拒绝机制

专知会员服务

10+阅读 · 2月8日

多样化偏好优化

多样化偏好优化

专知会员服务

12+阅读 · 2025年2月3日

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

专知会员服务

49+阅读 · 2024年12月17日

【新书】基于RAG的生成式AI：使用LlamaIndex、Deep Lake和Pinecone构建自定义的检索增强生成管道

【新书】基于RAG的生成式AI：使用LlamaIndex、Deep Lake和Pinecone构建自定义的检索增强生成管道

专知会员服务

63+阅读 · 2024年12月15日

直接偏好优化中的数据集、理论、变体和应用的综合综述

直接偏好优化中的数据集、理论、变体和应用的综合综述

专知会员服务

15+阅读 · 2024年10月24日

【新书】利用先进的生成式 AI 技术（如 RAG），释放数据的潜力，推动创新并获取战略优势

【新书】利用先进的生成式 AI 技术（如 RAG），释放数据的潜力，推动创新并获取战略优势

专知会员服务

57+阅读 · 2024年10月4日

生成式信息检索综述

生成式信息检索综述

专知会员服务

35+阅读 · 2024年6月5日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

【AAAI2023】DPText-DETR: 基于动态点query的场景文本检测，更高更快更鲁棒

【AAAI2023】DPText-DETR: 基于动态点query的场景文本检测，更高更快更鲁棒

专知会员服务

17+阅读 · 2023年1月23日

【WSDM 2020】RecVAE:一种新的变分自编码器，用于具有隐式反馈的Top-N推荐（RecVAE: a New Variational Autoencoder for Top-NRecommendations with Implicit Feedback）

【WSDM 2020】RecVAE:一种新的变分自编码器，用于具有隐式反馈的Top-N推荐（RecVAE: a New Variational Autoencoder for Top-NRecommendations with Implicit Feedback）

专知会员服务

32+阅读 · 2019年12月26日

热门VIP内容

开通专知VIP会员享更多权益服务

ICM 2026 | 陶哲轩：人工智能时代的数学

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

ICML 2026 教程 | 数值优化理论还重要吗？

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

相关资讯

搜索query意图识别的演进

搜索query意图识别的演进

DataFunTalk

13+阅读 · 2020年11月15日

KDD 2020 | 优势特征蒸馏在淘宝推荐中的应用

KDD 2020 | 优势特征蒸馏在淘宝推荐中的应用

AINLP

10+阅读 · 2020年7月9日

淘宝 at KDD 2020，提出M2GRL优化大规模推荐中的多任务多视角图表示学习

淘宝 at KDD 2020，提出M2GRL优化大规模推荐中的多任务多视角图表示学习

AINLP

23+阅读 · 2020年6月16日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

KDD 2019 | 自动探索特征组合，第四范式提出新方法AutoCross

KDD 2019 | 自动探索特征组合，第四范式提出新方法AutoCross

机器之心

18+阅读 · 2019年6月12日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

推荐算法：Match与Rank模型的交织配合

推荐算法：Match与Rank模型的交织配合

从0到1

15+阅读 · 2017年12月18日

相关论文

DynamicPO: Dynamic Preference Optimization for Recommendation

Arxiv

0+阅读 · 5月1日

UniRec: Bridging the Expressive Gap between Generative and Discriminative Recommendation via Chain-of-Attribute

Arxiv

0+阅读 · 4月22日

UniRec: Bridging the Expressive Gap between Generative and Discriminative Recommendation via Chain-of-Attribute

Arxiv

0+阅读 · 4月21日

On the Equivalence Between Auto-Regressive Next Token Prediction and Full-Item-Vocabulary Maximum Likelihood Estimation in Generative Recommendation--A Short Note

Arxiv

0+阅读 · 4月17日

UniRec: Bridging the Expressive Gap between Generative and Discriminative Recommendation via Chain-of-Attribute

Arxiv

0+阅读 · 4月14日

MBGR: Multi-Business Prediction for Generative Recommendation at Meituan

Arxiv

0+阅读 · 4月3日

Aligning Multimodal Sequential Recommendations via Robust Direct Preference Optimization with Sparse MoE

Arxiv

0+阅读 · 3月31日

OneSearch-V2: The Latent Reasoning Enhanced Self-distillation Generative Search Framework

Arxiv

0+阅读 · 3月25日

AIGQ: An End-to-End Hybrid Generative Architecture for E-commerce Query Recommendation

Arxiv

0+阅读 · 3月20日

Role-Augmented Intent-Driven Generative Search Engine Optimization

Arxiv

0+阅读 · 3月18日

相关基金

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

以用户为中心的电子商务大数据偏好查询处理与优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于在线消费者购买意向挖掘的个性化推荐研究

国家自然科学基金

0+阅读 · 2015年12月31日

通信网络在不确定业务流量需求下的路由鲁棒性优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

面向生物特征识别的鲁棒判别结构化特征表示方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

基于人眼关注度与情感分析的电子商务智能推荐计算

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员