Search relevance modeling is a core task in e-commerce search systems, assessing how well a user query matches candidate products. Rather than relying on a single holistic matching signal, relevance judgment often requires structured reasoning over query understanding, product understanding, and facet-level matching. With large language models (LLMs), this process is increasingly formulated as chain-of-thought (CoT) reasoning and optimized with reinforcement learning (RL). However, existing RL methods mainly rely on outcome-level rewards and treat the entire reasoning chain as a single optimization unit. This makes it difficult to distinguish faulty reasoning steps from correct intermediate ones, leading to misaligned credit assignment. Although process-reward methods provide denser supervision, they often treat reasoning steps independently and ignore dependency-driven error propagation, making responsibility attribution difficult and limiting the optimization of structured relevance reasoning. We propose Graph-GRPO, a graph-structured extension of GRPO for multi-component relevance reasoning. Graph-GRPO constructs a relevance reasoning dependency graph, where CoT steps are modeled as nodes and their logical dependencies as edges. It propagates outcome-level rewards over the graph to derive step-level credit signals, enabling more accurate fine-grained credit assignment. We further introduce a main-loss-driven controller that adaptively adjusts edge-wise credit-propagation coefficients. Together with CoT random masking for supervised policy initialization and graph-node-based multi-head distillation, we build a trainable and deployable framework for generative relevance modeling. Extensive offline evaluations and online A/B tests on a leading e-commerce platform demonstrate that the Graph-GRPO-based framework improves relevance classification metrics and key engagement metrics.


翻译:摘要:搜索相关性建模是电商搜索系统的核心任务,用于评估用户查询与候选产品之间的匹配程度。相关性判断并不依赖单一的全局匹配信号,而是需要对查询理解、产品理解以及方面级匹配进行结构化推理。借助大语言模型,该过程逐渐被形式化为思维链推理,并通过强化学习进行优化。然而,现有的强化学习方法主要依赖结果级奖励,将整个推理链视为单一优化单元。这使得难以区分错误推理步骤与正确中间步骤,导致信用分配失调。尽管过程奖励方法提供了更密集的监督,但它们往往将推理步骤视为独立单元,忽略了依赖驱动的错误传播,使得责任归属困难且限制了结构化相关性推理的优化。我们提出Graph-GRPO,一种基于图结构扩展的GRPO方法,用于多组件相关性推理。Graph-GRPO构建了一个相关性推理依赖图,其中思维链步骤被建模为节点,其逻辑依赖关系被建模为边。它将结果级奖励在图结构上进行传播以推导出步骤级信用信号,从而实现更精确的细粒度信用分配。我们进一步引入主损失驱动控制器,自适应调整边级信用传播系数。结合用于监督策略初始化的思维链随机掩码以及基于图节点的多头蒸馏,我们构建了一个可训练且可部署的生成式相关性建模框架。在主流电商平台上进行的大量离线评估和在线A/B测试表明,基于Graph-GRPO的框架可改善相关性分类指标和关键交互指标。

0
下载
关闭预览

相关内容

【博士论文】电商搜索中的排序学习
专知会员服务
13+阅读 · 2025年11月15日
人大最新《从匹配到生成:生成式信息检索》综述
专知会员服务
30+阅读 · 2024年4月25日
【KDD2022-教程】深度搜索相关性排名的实践,74页ppt
专知会员服务
23+阅读 · 2022年9月4日
【AAAI2021】基于图神经网络的文本语义匹配算法
专知会员服务
50+阅读 · 2021年1月30日
搜索query意图识别的演进
DataFunTalk
13+阅读 · 2020年11月15日
深度学习应用在图像匹配的效果如何?
中国图象图形学报
10+阅读 · 2019年6月11日
【知识图谱】基于知识图谱的用户画像技术
产业智能官
103+阅读 · 2019年1月9日
论文浅尝 | 知识图谱相关实体搜索
开放知识图谱
14+阅读 · 2018年12月18日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关资讯
搜索query意图识别的演进
DataFunTalk
13+阅读 · 2020年11月15日
深度学习应用在图像匹配的效果如何?
中国图象图形学报
10+阅读 · 2019年6月11日
【知识图谱】基于知识图谱的用户画像技术
产业智能官
103+阅读 · 2019年1月9日
论文浅尝 | 知识图谱相关实体搜索
开放知识图谱
14+阅读 · 2018年12月18日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员