SaFRO: Satisfaction-Aware Fusion via Dual-Relative Policy Optimization for Short-Video Search - 专知论文

会员服务 ·

0

融合 · 视频 · 视频搜索 · 搜索 · 策略优化 ·

SaFRO: Satisfaction-Aware Fusion via Dual-Relative Policy Optimization for Short-Video Search

翻译：SaFRO: 面向满意度感知的双重相对策略优化融合算法用于短视频搜索

Renzhe Zhou,Songyang Li,Feiran Zhu,Chenglei Dai,Yi Zhang,Yi Wang,Jingwei Zhuo

from arxiv, 9 pages, 8 figures

Multi-Task Fusion plays a pivotal role in industrial short-video search systems by aggregating heterogeneous prediction signals into a unified ranking score. However, existing approaches predominantly optimize for immediate engagement metrics, which often fail to align with long-term user satisfaction. While Reinforcement Learning (RL) offers a promising avenue for user satisfaction optimization, its direct application to search scenarios is non-trivial due to the inherent data sparsity and intent constraints compared to recommendation feeds. To this end, we propose SaFRO, a novel framework designed to optimize user satisfaction in short-video search. We first construct a satisfaction-aware reward model that utilizes query-level behavioral proxies to capture holistic user satisfaction beyond item-level interactions. Then we introduce Dual-Relative Policy Optimization (DRPO), an efficient policy learning method that updates the fusion policy through relative preference comparisons within groups and across batches. Furthermore, we design a Task-Relation-Aware Fusion module to explicitly model the interdependencies among different objectives, enabling context-sensitive weight adaptation. Extensive offline evaluations and large-scale online A/B tests on Kuaishou short-video search platform demonstrate that SaFRO significantly outperforms state-of-the-art baselines, delivering substantial gains in both short-term ranking quality and long-term user retention.

翻译：多任务融合在工业级短视频搜索系统中扮演着核心角色，通过将异构预测信号聚合为统一排序分数。然而，现有方法主要优化即时交互指标，往往无法与长期用户满意度对齐。虽然强化学习为优化用户满意度提供了有前景的途径，但与推荐流相比，由于搜索场景固有的数据稀疏性和意图约束，其直接应用并非易事。为此，我们提出SaFRO——一种旨在优化短视频搜索中用户满意度的新型框架。首先构建了满意度感知奖励模型，利用查询级行为代理捕获超越项目级交互的整体用户满意度。随后引入双重相对策略优化（DRPO），一种高效的策略学习方法，通过组内和跨批次间的相对偏好比较来更新融合策略。进一步设计了任务关系感知融合模块，显式建模不同目标间的相互依赖关系，实现上下文敏感的权重自适应。在快手短视频搜索平台上进行的广泛离线评估和大规模在线A/B测试表明，SaFRO显著优于现有最先进基线方法，在短期排序质量和长期用户留存方面均带来实质性提升。

0

相关内容

[ICML 2026] SOLAR：自监督联合学习实现对称多模态检索

[ICML 2026] SOLAR：自监督联合学习实现对称多模态检索

专知会员服务

8+阅读 · 5月18日

多样化偏好优化

多样化偏好优化

专知会员服务

12+阅读 · 2025年2月3日

推荐系统融合排序的多目标寻优技术

推荐系统融合排序的多目标寻优技术

专知会员服务

19+阅读 · 2024年8月17日

【大模型+搜索】AI搜索行业深度：大模型催生搜索行业变革机遇，产品百花齐放效果几何

【大模型+搜索】AI搜索行业深度：大模型催生搜索行业变革机遇，产品百花齐放效果几何

专知会员服务

37+阅读 · 2024年4月17日

基于深度学习的图像融合方法综述

基于深度学习的图像融合方法综述

专知会员服务

57+阅读 · 2023年1月25日

基于强化学习的推荐研究综述

基于强化学习的推荐研究综述

专知会员服务

84+阅读 · 2021年10月21日

基于深度学习的视觉多目标跟踪算法综述

专知会员服务

50+阅读 · 2021年4月15日

LinkedIn《贝叶斯优化推荐系统》，IJCAI报告，142页ppt

LinkedIn《贝叶斯优化推荐系统》，IJCAI报告，142页ppt

专知会员服务

52+阅读 · 2021年1月11日

【CIKM2020-北大】Set-Sequence-Graph:一种利用评论来获取推荐的多视图方法

专知会员服务

21+阅读 · 2020年9月22日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知会员服务

75+阅读 · 2019年10月19日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

AINLP

11+阅读 · 2020年7月7日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

MSRA开源基于注意力机制的全新推荐模型，融合用户长短期偏好

MSRA开源基于注意力机制的全新推荐模型，融合用户长短期偏好

AI前线

15+阅读 · 2019年9月22日

【综述】深度学习在视频多目标跟踪上的应用

【综述】深度学习在视频多目标跟踪上的应用

专知

14+阅读 · 2019年8月8日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

强化学习落地！京东等发布综述《深度强化学习在搜索，推荐和在线广告中的应用》

强化学习落地！京东等发布综述《深度强化学习在搜索，推荐和在线广告中的应用》

专知

26+阅读 · 2019年2月19日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

【干货】基于注意力机制的神经匹配模型用于短文本检索

【干货】基于注意力机制的神经匹配模型用于短文本检索

专知

11+阅读 · 2018年1月11日

推荐系统主要算法总结及Youtube深度学习推荐算法实例概括

推荐系统主要算法总结及Youtube深度学习推荐算法实例概括

深度学习探索

13+阅读 · 2017年7月16日

基于共性视觉特征与反馈机制的SAR图像目标检测方法研究

国家自然科学基金

3+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

网络图像标注中多视图半监督稀疏特征选择算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向物联网搜索的群智感知关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

具有耦合性结构的多视图社交网络社区发现算法研究及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

普适计算对象感知多模态不精确性数据融合算法研究

国家自然科学基金

5+阅读 · 2014年12月31日

基于融合先验知识的机器学习的多传感器融合研究

国家自然科学基金

16+阅读 · 2013年12月31日

Action-Aware Generative Sequence Modeling for Short Video Recommendation

Arxiv

0+阅读 · 4月28日

Fisher Decorator: Refining Flow Policy via A Local Transport Map

Arxiv

0+阅读 · 4月20日

SLSREC: Self-Supervised Contrastive Learning for Adaptive Fusion of Long- and Short-Term User Interests

Arxiv

0+阅读 · 4月6日

STABLE: Efficient Hybrid Nearest Neighbor Search via Magnitude-Uniformity and Cardinality-Robustness

Arxiv

0+阅读 · 4月2日

Unbiased Multimodal Reranking for Long-Tail Short-Video Search

Arxiv

0+阅读 · 3月30日

UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation

Arxiv

0+阅读 · 3月24日

Hierarchical Long Video Understanding with Audiovisual Entity Cohesion and Agentic Search

Arxiv

0+阅读 · 3月24日

VideoDetective: Clue Hunting via both Extrinsic Query and Intrinsic Relevance for Long Video Understanding

Arxiv

0+阅读 · 3月23日

PromptHub: Enhancing Multi-Prompt Visual In-Context Learning with Locality-Aware Fusion, Concentration and Alignment

Arxiv

0+阅读 · 3月19日

MOSAIC: Multi-Objective Slice-Aware Iterative Curation for Alignment

Arxiv

0+阅读 · 3月19日

VIP会员

文章信息

相关主题

最新内容

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

0+阅读 · 今天15:52

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

2+阅读 · 今天15:32

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

1+阅读 · 今天15:24

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

0+阅读 · 今天15:15

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

2+阅读 · 今天15:11

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

0+阅读 · 今天14:43

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

0+阅读 · 今天14:40

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

专知会员服务

11+阅读 · 7月16日

《无人地面战车（UGV）的崛起》报告

《无人地面战车（UGV）的崛起》报告

专知会员服务

7+阅读 · 7月16日

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

专知会员服务

6+阅读 · 7月16日

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

专知会员服务

12+阅读 · 7月16日

美陆军任务式指挥人工智能解决方案

美陆军任务式指挥人工智能解决方案

专知会员服务

11+阅读 · 7月16日

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

专知会员服务

8+阅读 · 7月16日

综述 | 现代智能体自我改进，从模型更新到脚手架演化

综述 | 现代智能体自我改进，从模型更新到脚手架演化

专知会员服务

14+阅读 · 7月16日

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

专知会员服务

13+阅读 · 7月15日

相关VIP内容

[ICML 2026] SOLAR：自监督联合学习实现对称多模态检索

[ICML 2026] SOLAR：自监督联合学习实现对称多模态检索

专知会员服务

8+阅读 · 5月18日

多样化偏好优化

多样化偏好优化

专知会员服务

12+阅读 · 2025年2月3日

推荐系统融合排序的多目标寻优技术

推荐系统融合排序的多目标寻优技术

专知会员服务

19+阅读 · 2024年8月17日

【大模型+搜索】AI搜索行业深度：大模型催生搜索行业变革机遇，产品百花齐放效果几何

【大模型+搜索】AI搜索行业深度：大模型催生搜索行业变革机遇，产品百花齐放效果几何

专知会员服务

37+阅读 · 2024年4月17日

基于深度学习的图像融合方法综述

基于深度学习的图像融合方法综述

专知会员服务

57+阅读 · 2023年1月25日

基于强化学习的推荐研究综述

基于强化学习的推荐研究综述

专知会员服务

84+阅读 · 2021年10月21日

基于深度学习的视觉多目标跟踪算法综述

专知会员服务

50+阅读 · 2021年4月15日

LinkedIn《贝叶斯优化推荐系统》，IJCAI报告，142页ppt

LinkedIn《贝叶斯优化推荐系统》，IJCAI报告，142页ppt

专知会员服务

52+阅读 · 2021年1月11日

【CIKM2020-北大】Set-Sequence-Graph:一种利用评论来获取推荐的多视图方法

专知会员服务

21+阅读 · 2020年9月22日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知会员服务

75+阅读 · 2019年10月19日

热门VIP内容

开通专知VIP会员享更多权益服务

《边缘端实时无线感知赋能现场多机器人部署》200页

人工智能赋能战场情报：提速决策进程

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

战力倍增器：自主武器系统与乌克兰及加沙冲突

相关资讯

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

AINLP

11+阅读 · 2020年7月7日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

MSRA开源基于注意力机制的全新推荐模型，融合用户长短期偏好

MSRA开源基于注意力机制的全新推荐模型，融合用户长短期偏好

AI前线

15+阅读 · 2019年9月22日

【综述】深度学习在视频多目标跟踪上的应用

【综述】深度学习在视频多目标跟踪上的应用

专知

14+阅读 · 2019年8月8日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

强化学习落地！京东等发布综述《深度强化学习在搜索，推荐和在线广告中的应用》

强化学习落地！京东等发布综述《深度强化学习在搜索，推荐和在线广告中的应用》

专知

26+阅读 · 2019年2月19日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

【干货】基于注意力机制的神经匹配模型用于短文本检索

【干货】基于注意力机制的神经匹配模型用于短文本检索

专知

11+阅读 · 2018年1月11日

推荐系统主要算法总结及Youtube深度学习推荐算法实例概括

推荐系统主要算法总结及Youtube深度学习推荐算法实例概括

深度学习探索

13+阅读 · 2017年7月16日

相关论文

Action-Aware Generative Sequence Modeling for Short Video Recommendation

Arxiv

0+阅读 · 4月28日

Fisher Decorator: Refining Flow Policy via A Local Transport Map

Arxiv

0+阅读 · 4月20日

SLSREC: Self-Supervised Contrastive Learning for Adaptive Fusion of Long- and Short-Term User Interests

Arxiv

0+阅读 · 4月6日

STABLE: Efficient Hybrid Nearest Neighbor Search via Magnitude-Uniformity and Cardinality-Robustness

Arxiv

0+阅读 · 4月2日

Unbiased Multimodal Reranking for Long-Tail Short-Video Search

Arxiv

0+阅读 · 3月30日

UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation

Arxiv

0+阅读 · 3月24日

Hierarchical Long Video Understanding with Audiovisual Entity Cohesion and Agentic Search

Arxiv

0+阅读 · 3月24日

VideoDetective: Clue Hunting via both Extrinsic Query and Intrinsic Relevance for Long Video Understanding

Arxiv

0+阅读 · 3月23日

PromptHub: Enhancing Multi-Prompt Visual In-Context Learning with Locality-Aware Fusion, Concentration and Alignment

Arxiv

0+阅读 · 3月19日

MOSAIC: Multi-Objective Slice-Aware Iterative Curation for Alignment

Arxiv

0+阅读 · 3月19日

相关基金

基于共性视觉特征与反馈机制的SAR图像目标检测方法研究

国家自然科学基金

3+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

网络图像标注中多视图半监督稀疏特征选择算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向物联网搜索的群智感知关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

具有耦合性结构的多视图社交网络社区发现算法研究及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

普适计算对象感知多模态不精确性数据融合算法研究

国家自然科学基金

5+阅读 · 2014年12月31日

基于融合先验知识的机器学习的多传感器融合研究

国家自然科学基金

16+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员