Multi-Task Fusion plays a pivotal role in industrial short-video search systems by aggregating heterogeneous prediction signals into a unified ranking score. However, existing approaches predominantly optimize for immediate engagement metrics, which often fail to align with long-term user satisfaction. While Reinforcement Learning (RL) offers a promising avenue for user satisfaction optimization, its direct application to search scenarios is non-trivial due to the inherent data sparsity and intent constraints compared to recommendation feeds. To this end, we propose SaFRO, a novel framework designed to optimize user satisfaction in short-video search. We first construct a satisfaction-aware reward model that utilizes query-level behavioral proxies to capture holistic user satisfaction beyond item-level interactions. Then we introduce Dual-Relative Policy Optimization (DRPO), an efficient policy learning method that updates the fusion policy through relative preference comparisons within groups and across batches. Furthermore, we design a Task-Relation-Aware Fusion module to explicitly model the interdependencies among different objectives, enabling context-sensitive weight adaptation. Extensive offline evaluations and large-scale online A/B tests on Kuaishou short-video search platform demonstrate that SaFRO significantly outperforms state-of-the-art baselines, delivering substantial gains in both short-term ranking quality and long-term user retention.


翻译:多任务融合在工业级短视频搜索系统中扮演着核心角色,通过将异构预测信号聚合为统一排序分数。然而,现有方法主要优化即时交互指标,往往无法与长期用户满意度对齐。虽然强化学习为优化用户满意度提供了有前景的途径,但与推荐流相比,由于搜索场景固有的数据稀疏性和意图约束,其直接应用并非易事。为此,我们提出SaFRO——一种旨在优化短视频搜索中用户满意度的新型框架。首先构建了满意度感知奖励模型,利用查询级行为代理捕获超越项目级交互的整体用户满意度。随后引入双重相对策略优化(DRPO),一种高效的策略学习方法,通过组内和跨批次间的相对偏好比较来更新融合策略。进一步设计了任务关系感知融合模块,显式建模不同目标间的相互依赖关系,实现上下文敏感的权重自适应。在快手短视频搜索平台上进行的广泛离线评估和大规模在线A/B测试表明,SaFRO显著优于现有最先进基线方法,在短期排序质量和长期用户留存方面均带来实质性提升。

0
下载
关闭预览

相关内容

多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
推荐系统融合排序的多目标寻优技术
专知会员服务
18+阅读 · 2024年8月17日
基于深度学习的图像融合方法综述
专知会员服务
57+阅读 · 2023年1月25日
基于强化学习的推荐研究综述
专知会员服务
84+阅读 · 2021年10月21日
专知会员服务
50+阅读 · 2021年4月15日
LinkedIn《贝叶斯优化推荐系统》,IJCAI报告,142页ppt
专知会员服务
52+阅读 · 2021年1月11日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
最新内容
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
1+阅读 · 今天14:04
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
5+阅读 · 今天13:49
基于声学的无人机检测技术综述
专知会员服务
3+阅读 · 今天13:37
《当代混合战争分析框架:俄乌战争经验教训》
专知会员服务
4+阅读 · 今天13:11
战略前沿人工智能的再思考(中文)
专知会员服务
7+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
5+阅读 · 5月29日
“史诗怒火行动”中美军损失的作战飞机
专知会员服务
6+阅读 · 5月29日
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
5+阅读 · 5月28日
相关VIP内容
多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
推荐系统融合排序的多目标寻优技术
专知会员服务
18+阅读 · 2024年8月17日
基于深度学习的图像融合方法综述
专知会员服务
57+阅读 · 2023年1月25日
基于强化学习的推荐研究综述
专知会员服务
84+阅读 · 2021年10月21日
专知会员服务
50+阅读 · 2021年4月15日
LinkedIn《贝叶斯优化推荐系统》,IJCAI报告,142页ppt
专知会员服务
52+阅读 · 2021年1月11日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员