Query-product relevance prediction is a core task in e-commerce search. BERT-based models excel at semantic matching but lack complex reasoning capabilities. While Large Language Models (LLMs) are explored, most still use discriminative fine-tuning or distill to smaller models for deployment. We propose a framework to directly deploy LLMs for this task, addressing key challenges: Chain-of-Thought (CoT) error accumulation, discriminative hallucination, and deployment feasibility. Our framework, TaoSR1, involves three stages: (1) Supervised Fine-Tuning (SFT) with CoT to instill reasoning; (2) Offline sampling with a pass@N strategy and Direct Preference Optimization (DPO) to improve generation quality; and (3) Difficulty-based dynamic sampling with Group Relative Policy Optimization (GRPO) to mitigate discriminative hallucination. Additionally, post-CoT processing and a cumulative probability-based partitioning method enable efficient online deployment. TaoSR1 significantly outperforms baselines on offline datasets and achieves substantial gains in online side-by-side human evaluations, introducing a novel paradigm for applying CoT reasoning to relevance classification.


翻译:查询-商品相关性预测是电子商务搜索中的核心任务。基于BERT的模型擅长语义匹配,但缺乏复杂推理能力。尽管大型语言模型(LLMs)已被探索用于该任务,但多数研究仍采用判别式微调或将其蒸馏至小模型进行部署。我们提出一个直接部署LLMs完成该任务的框架,旨在解决三个关键挑战:思维链(CoT)错误累积、判别性幻觉以及部署可行性。我们的框架TaoSR1包含三个阶段:(1)采用带CoT的监督微调(SFT)以注入推理能力;(2)通过pass@N策略进行离线采样并结合直接偏好优化(DPO)以提升生成质量;(3)采用基于难度的动态采样与组相对策略优化(GRPO)以缓解判别性幻觉。此外,后CoT处理流程与基于累积概率的分区方法实现了高效的在线部署。TaoSR1在离线数据集上显著超越基线模型,并在在线并排人工评估中取得显著收益,为将CoT推理应用于相关性分类任务引入了新颖的范式。

0
下载
关闭预览

相关内容

搜索query意图识别的演进
DataFunTalk
13+阅读 · 2020年11月15日
深入理解BERT Transformer ,不仅仅是注意力机制
大数据文摘
22+阅读 · 2019年3月19日
论文浅尝 | 知识图谱相关实体搜索
开放知识图谱
14+阅读 · 2018年12月18日
深度学习在CTR预估中的应用 | CTR深度模型大盘点
PaperWeekly
15+阅读 · 2018年4月11日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月7日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员