PRPO: Aligning Process Reward with Outcome Reward in Policy Optimization - 专知论文

会员服务 ·

0

策略优化 · 词元 · 对齐 · 归一化 · 稀疏 ·

PRPO: Aligning Process Reward with Outcome Reward in Policy Optimization

翻译：PRPO：在策略优化中实现过程奖励与结果奖励的对齐

Ruiyi Ding,Yongxuan Lv,Xianhui Meng,Jiahe Song,Chao Wang,Chen Jiang,Yuan Cheng

from arxiv, 8 pages, 2 figures Code is available at: https://github.com/SchumiDing/srpocode

Policy optimization for large language models often suffers from sparse reward signals in multi-step reasoning tasks. Critic-free methods like GRPO assign a single normalized outcome reward to all tokens, providing limited guidance for intermediate reasoning . While Process Reward Models (PRMs) offer dense feedback, they risk premature collapse when used alone, as early low-reward tokens can drive policies toward truncated outputs. We introduce Process Relative Policy Optimization (PRPO), which combines outcome reliability with process-level guidance in a critic-free framework. PRPO segments reasoning sequences based on semantic clues, normalizes PRM scores into token-level advantages, and aligns their distribution with outcome advantages through location-parameter shift. On MATH500, PRPO improves Qwen2.5-Math-1.5B accuracy from 61.2% to 64.4% over GRPO using only eight rollouts and no value network, demonstrating efficient fine-grained credit assignment within critic-free optimization. Code is available at: https://github.com/SchumiDing/srpocode

翻译：大语言模型的策略优化在多步推理任务中常面临奖励信号稀疏的问题。如GRPO等无评论家方法对所有词元分配单一归一化的结果奖励，对中间推理过程的指导有限。虽然过程奖励模型能提供密集反馈，但单独使用时存在过早坍缩的风险，早期低奖励词元可能驱使策略生成截断输出。我们提出过程相对策略优化方法，在无评论器框架中将结果可靠性与过程级指导相结合。PRPO基于语义线索分割推理序列，将PRM分数归一化为词元级优势度，并通过位置参数平移使其分布与结果优势度对齐。在MATH500数据集上，PRPO仅使用八次推演且无需价值网络，就将Qwen2.5-Math-1.5B的准确率从GRPO的61.2%提升至64.4%，证明了无评论家优化框架内细粒度信用分配的有效性。代码发布于：https://github.com/SchumiDing/srpocode

0

相关内容

策略优化

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

专知会员服务

13+阅读 · 2025年12月19日

【AAAI2026】DEPO：面向大型语言模型智能体的双重效率偏好优化

【AAAI2026】DEPO：面向大型语言模型智能体的双重效率偏好优化

专知会员服务

14+阅读 · 2025年11月24日

【普林斯顿博士论文】以奖励推动生成式人工智能的发展：奖励引导生成的理论与方法

【普林斯顿博士论文】以奖励推动生成式人工智能的发展：奖励引导生成的理论与方法

专知会员服务

19+阅读 · 2025年7月5日

【ICML2025】大语言模型的有限理性：推理时的“满意化”对齐策略

【ICML2025】大语言模型的有限理性：推理时的“满意化”对齐策略

专知会员服务

11+阅读 · 2025年6月1日

【博士论文】强化学习智能体的奖励函数设计

【博士论文】强化学习智能体的奖励函数设计

专知会员服务

48+阅读 · 2025年4月8日

多样化偏好优化

多样化偏好优化

专知会员服务

12+阅读 · 2025年2月3日

【阿里千问】在数学推理中开发过程奖励模型的经验教训

【阿里千问】在数学推理中开发过程奖励模型的经验教训

专知会员服务

18+阅读 · 2025年1月14日

【普林斯顿博士论文】高效决策背后的结构化表征

【普林斯顿博士论文】高效决策背后的结构化表征

专知会员服务

39+阅读 · 2024年11月26日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

最新《模仿学习 - Imitation Learning》教程，63页ppt，微软Kamil Ciosek

最新《模仿学习 - Imitation Learning》教程，63页ppt，微软Kamil Ciosek

专知会员服务

66+阅读 · 2020年8月22日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

强化学习《奖励函数设计: Reward Shaping》详细解读

强化学习《奖励函数设计: Reward Shaping》详细解读

深度强化学习实验室

20+阅读 · 2020年9月1日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

自动特征工程在推荐系统中的研究

自动特征工程在推荐系统中的研究

DataFunTalk

10+阅读 · 2019年12月20日

详解 | 推荐系统的工程实现

详解 | 推荐系统的工程实现

AI100

42+阅读 · 2019年3月15日

推荐策略产品经理：剖析协同过滤（千人千面推荐的核心）

推荐策略产品经理：剖析协同过滤（千人千面推荐的核心）

PMCAFF

10+阅读 · 2019年3月14日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

信息不完全的双边匹配决策方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

Filling问题的最优化原理及其求解方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

演化优化的自适应约束处理机理及在生化过程中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

压缩感知和稀疏优化中的非凸优化算法设计

国家自然科学基金

2+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

基于公共衍生大数据分析的政府决策过程重构与评估方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

多项式优化的最优性条件与最优化算法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

Truncated Step-Level Sampling with Process Rewards for Retrieval-Augmented Reasoning

Arxiv

0+阅读 · 3月12日

IAPO: Information-Aware Policy Optimization for Token-Efficient Reasoning

Arxiv

0+阅读 · 2月22日

GRPO is Secretly a Process Reward Model

Arxiv

0+阅读 · 2月20日

Asymmetric Prompt Weighting for Reinforcement Learning with Verifiable Rewards

Arxiv

0+阅读 · 2月11日

RePO: Bridging On-Policy Learning and Off-Policy Knowledge through Rephrasing Policy Optimization

Arxiv

0+阅读 · 2月11日

VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

Arxiv

0+阅读 · 2月11日

ATTNPO: Attention-Guided Process Supervision for Efficient Reasoning

Arxiv

0+阅读 · 2月10日

EBPO: Empirical Bayes Shrinkage for Stabilizing Group-Relative Policy Optimization

Arxiv

0+阅读 · 2月7日

Guided Verifier: Collaborative Multimodal Reasoning via Dynamic Process Supervision

Arxiv

0+阅读 · 2月4日

RC-GRPO: Reward-Conditioned Group Relative Policy Optimization for Multi-Turn Tool Calling Agents

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

最新内容

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

3+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

3+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

4+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

4+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

10+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

6+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

7+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

7+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

11+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

6+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

6+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

8+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

6+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

6+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

9+阅读 · 5月29日

相关VIP内容

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

专知会员服务

13+阅读 · 2025年12月19日

【AAAI2026】DEPO：面向大型语言模型智能体的双重效率偏好优化

【AAAI2026】DEPO：面向大型语言模型智能体的双重效率偏好优化

专知会员服务

14+阅读 · 2025年11月24日

【普林斯顿博士论文】以奖励推动生成式人工智能的发展：奖励引导生成的理论与方法

【普林斯顿博士论文】以奖励推动生成式人工智能的发展：奖励引导生成的理论与方法

专知会员服务

19+阅读 · 2025年7月5日

【ICML2025】大语言模型的有限理性：推理时的“满意化”对齐策略

【ICML2025】大语言模型的有限理性：推理时的“满意化”对齐策略

专知会员服务

11+阅读 · 2025年6月1日

【博士论文】强化学习智能体的奖励函数设计

【博士论文】强化学习智能体的奖励函数设计

专知会员服务

48+阅读 · 2025年4月8日

多样化偏好优化

多样化偏好优化

专知会员服务

12+阅读 · 2025年2月3日

【阿里千问】在数学推理中开发过程奖励模型的经验教训

【阿里千问】在数学推理中开发过程奖励模型的经验教训

专知会员服务

18+阅读 · 2025年1月14日

【普林斯顿博士论文】高效决策背后的结构化表征

【普林斯顿博士论文】高效决策背后的结构化表征

专知会员服务

39+阅读 · 2024年11月26日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

最新《模仿学习 - Imitation Learning》教程，63页ppt，微软Kamil Ciosek

最新《模仿学习 - Imitation Learning》教程，63页ppt，微软Kamil Ciosek

专知会员服务

66+阅读 · 2020年8月22日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

美以伊战争：首次人工智能战争——军事自主性困境

BES：让语言模型通过双向进化搜索自我改进

以色列-美国-伊朗战争中的无人机：关键要点

相关资讯

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

强化学习《奖励函数设计: Reward Shaping》详细解读

强化学习《奖励函数设计: Reward Shaping》详细解读

深度强化学习实验室

20+阅读 · 2020年9月1日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

自动特征工程在推荐系统中的研究

自动特征工程在推荐系统中的研究

DataFunTalk

10+阅读 · 2019年12月20日

详解 | 推荐系统的工程实现

详解 | 推荐系统的工程实现

AI100

42+阅读 · 2019年3月15日

推荐策略产品经理：剖析协同过滤（千人千面推荐的核心）

推荐策略产品经理：剖析协同过滤（千人千面推荐的核心）

PMCAFF

10+阅读 · 2019年3月14日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

Truncated Step-Level Sampling with Process Rewards for Retrieval-Augmented Reasoning

Arxiv

0+阅读 · 3月12日

IAPO: Information-Aware Policy Optimization for Token-Efficient Reasoning

Arxiv

0+阅读 · 2月22日

GRPO is Secretly a Process Reward Model

Arxiv

0+阅读 · 2月20日

Asymmetric Prompt Weighting for Reinforcement Learning with Verifiable Rewards

Arxiv

0+阅读 · 2月11日

RePO: Bridging On-Policy Learning and Off-Policy Knowledge through Rephrasing Policy Optimization

Arxiv

0+阅读 · 2月11日

VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

Arxiv

0+阅读 · 2月11日

ATTNPO: Attention-Guided Process Supervision for Efficient Reasoning

Arxiv

0+阅读 · 2月10日

EBPO: Empirical Bayes Shrinkage for Stabilizing Group-Relative Policy Optimization

Arxiv

0+阅读 · 2月7日

Guided Verifier: Collaborative Multimodal Reasoning via Dynamic Process Supervision

Arxiv

0+阅读 · 2月4日

RC-GRPO: Reward-Conditioned Group Relative Policy Optimization for Multi-Turn Tool Calling Agents

Arxiv

0+阅读 · 2月3日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

信息不完全的双边匹配决策方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

Filling问题的最优化原理及其求解方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

演化优化的自适应约束处理机理及在生化过程中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

压缩感知和稀疏优化中的非凸优化算法设计

国家自然科学基金

2+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

基于公共衍生大数据分析的政府决策过程重构与评估方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

多项式优化的最优性条件与最优化算法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员