News recommendation plays a critical role in online news platforms by helping users discover relevant content. Cross-domain news recommendation further requires inferring user's underlying information needs from heterogeneous signals that often extend beyond direct news consumption. A key challenge lies in moving beyond surface-level behaviors to capture deeper, reusable user interests while maintaining scalability in large-scale production systems. In this paper, we present a reinforcement learning framework that trains large language models to generate high-quality lists of interest-driven news search queries from cross-domain user signals. We formulate query-list generation as a policy optimization problem and employ GRPO with multiple reward signals. We systematically study two compute dimensions: inference-time sampling and model capacity, and empirically observe consistent improvements with increased compute that exhibit scaling-like behavior. Finally, we perform on-policy distillation to transfer the learned policy from a large, compute-intensive teacher to a compact student model suitable for scalable deployment. Extensive offline experiments, ablation studies and large-scale online A/B tests in a production news recommendation system demonstrate consistent gains in both interest modeling quality and downstream recommendation performance.


翻译:新闻推荐在在线新闻平台中扮演着关键角色,帮助用户发现相关内容。跨领域新闻推荐进一步要求从通常超出直接新闻消费的异构信号中推断用户的潜在信息需求。一个核心挑战在于超越表层行为,以捕捉更深层次、可复用的用户兴趣,同时在大规模生产系统中保持可扩展性。本文提出一种强化学习框架,训练大型语言模型从跨领域用户信号中生成高质量的兴趣驱动新闻搜索查询列表。我们将查询列表生成构建为一个策略优化问题,并采用具有多重奖励信号的GRPO。我们系统地研究了两个计算维度:推理时采样与模型容量,并通过实证观察到随着计算量增加带来的持续改进呈现出类似缩放的行为。最后,我们执行同策略蒸馏,将学习到的策略从一个计算密集型的大型教师模型迁移到一个适用于可扩展部署的紧凑学生模型。在生产新闻推荐系统中进行的广泛离线实验、消融研究和大规模在线A/B测试,均证明了该方法在兴趣建模质量和下游推荐性能上的一致提升。

0
下载
关闭预览

相关内容

新闻,是指报纸、电台、电视台、互联网等媒体经常使用的记录与传播信息的 [2] 一种文体,是反映时代的一种文体。新闻概念有广义与狭义之分。广义上:除了发表于报刊、广播、互联网、电视上的评论与专文外的常用文本都属于新闻,包括消息、通讯、特写、速写(有的将速写纳入特写之列)等等; [3] 狭义上:消息是用概括的叙述方式,以较简明扼要的文字,迅速及时地报道附近新近发生的、有价值的事实,使一定人群了解。新闻一般包括标题、导语、主体、背景和结语五部分。前三者是主要部分,后二者是辅助部分。写法以叙述为主兼或有议论、描写、评论等。新闻是包含海量资讯的新闻服务平台,真实反映每时每刻的重要事件。您可以搜索新闻事件、热点话题、人物动态、产品资讯等,快速了解它们的最新进展。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
49+阅读 · 2021年6月26日
跨媒体分析与推理技术研究综述
专知会员服务
70+阅读 · 2021年3月11日
专知会员服务
48+阅读 · 2020年10月20日
论文浅尝 | DKN: 面向新闻推荐的深度知识感知网络
开放知识图谱
21+阅读 · 2019年5月1日
新书推荐《推荐系统进展:方法与技术》
LibRec智能推荐
13+阅读 · 2019年3月18日
深度学习在推荐系统中的应用综述(最全)
七月在线实验室
17+阅读 · 2018年5月5日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
专知会员服务
49+阅读 · 2021年6月26日
跨媒体分析与推理技术研究综述
专知会员服务
70+阅读 · 2021年3月11日
专知会员服务
48+阅读 · 2020年10月20日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员