ETR：面向策略优化的结果导向弹性置信域 (ETR: Outcome-Guided Elastic Trust Regions for Policy Optimization) - 专知论文

会员服务 ·

0

弹性 · 策略优化 · 约束 · 方差 · 高效性 ·

ETR: Outcome-Guided Elastic Trust Regions for Policy Optimization

翻译：ETR：面向策略优化的结果导向弹性置信域

Shijie Zhang,Kevin Zhang,Zheyuan Gu,Xiang Guo,Rujun Guo,Shaoyu Liu,Guanjun Jiang,Xiaozhao Wang

Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as an important paradigm for unlocking reasoning capabilities in large language models, exemplified by the success of OpenAI o1 and DeepSeek-R1. Currently, Group Relative Policy Optimization (GRPO) stands as the dominant algorithm in this domain due to its stable training and critic-free efficiency. However, we argue that GRPO suffers from a structural limitation: it imposes a uniform, static trust region constraint across all samples. This design implicitly assumes signal homogeneity, a premise misaligned with the heterogeneous nature of outcome-driven learning, where advantage magnitudes and variances fluctuate significantly. Consequently, static constraints fail to fully exploit high-quality signals while insufficiently suppressing noise, often precipitating rapid entropy collapse. To address this, we propose \textbf{E}lastic \textbf{T}rust \textbf{R}egions (\textbf{ETR}), a dynamic mechanism that aligns optimization constraints with signal quality. ETR constructs a signal-aware landscape through dual-level elasticity: at the micro level, it scales clipping boundaries based on advantage magnitude to accelerate learning from high-confidence paths; at the macro level, it leverages group variance to implicitly allocate larger update budgets to tasks in the optimal learning zone. Extensive experiments on AIME and MATH benchmarks demonstrate that ETR consistently outperforms GRPO, achieving superior accuracy while effectively mitigating policy entropy degradation to ensure sustained exploration.

翻译：可验证奖励强化学习（RLVR）已成为解锁大型语言模型推理能力的重要范式，以OpenAI o1和DeepSeek-R1的成功为典型代表。目前，组相对策略优化（GRPO）因其训练稳定和无批评器的高效性，成为该领域的主导算法。然而，我们认为GRPO存在结构性局限：它对所有样本施加了统一、静态的置信域约束。这种设计隐含地假设了信号同质性，该前提与结果驱动学习的异质性本质不相符——在结果驱动学习中，优势值幅度和方差存在显著波动。因此，静态约束既无法充分利用高质量信号，又不足以抑制噪声，常常导致熵值快速崩溃。为解决这一问题，我们提出**弹性置信域（ETR）**，这是一种将优化约束与信号质量对齐的动态机制。ETR通过双层级弹性构建信号感知的优化空间：在微观层面，它根据优势值幅度动态调整截断边界，以加速从高置信度路径的学习；在宏观层面，它利用组方差隐式地为处于最优学习区间的任务分配更大的更新预算。在AIME和MATH基准上的大量实验表明，ETR始终优于GRPO，在实现更高准确率的同时，有效缓解策略熵值退化，确保持续探索能力。

0

相关内容

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

专知会员服务

13+阅读 · 2025年12月19日

【ICML2025】组合优化问题中的偏好优化

【ICML2025】组合优化问题中的偏好优化

专知会员服务

12+阅读 · 2025年5月17日

《直接偏好优化研究综述》

《直接偏好优化研究综述》

专知会员服务

31+阅读 · 2025年3月18日

《基于深度强化学习的战场策略》

《基于深度强化学习的战场策略》

专知会员服务

37+阅读 · 2025年1月13日

【ETHZ博士论文】样本高效的基于模型的强化学习：零阶轨迹优化、策略蒸馏和距离学习的分析

【ETHZ博士论文】样本高效的基于模型的强化学习：零阶轨迹优化、策略蒸馏和距离学习的分析

专知会员服务

44+阅读 · 2023年12月6日

【ETHZ博士论文】基于人类反馈的安全高效强化学习算法基础， 258页pdf

【ETHZ博士论文】基于人类反馈的安全高效强化学习算法基础， 258页pdf

专知会员服务

52+阅读 · 2023年10月8日

【新书推荐】清华最新《RL for Sequential Decision and Optimal Control》书籍

【新书推荐】清华最新《RL for Sequential Decision and Optimal Control》书籍

专知会员服务

74+阅读 · 2023年5月21日

【CMU博士论文】强化学习可解释：统一状态和策略级解释，132页pdf

【CMU博士论文】强化学习可解释：统一状态和策略级解释，132页pdf

专知会员服务

40+阅读 · 2022年11月22日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知会员服务

89+阅读 · 2022年11月17日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

32+阅读 · 2022年11月12日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

深度学习在CTR预估中的应用 | CTR深度模型大盘点

深度学习在CTR预估中的应用 | CTR深度模型大盘点

PaperWeekly

15+阅读 · 2018年4月11日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

基于参数和结构优化的置信规则库推理方法研究

国家自然科学基金

5+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

42+阅读 · 2015年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于中智集的模糊多属性决策理论、方法与应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

Rewards as Labels: Revisiting RLVR from a Classification Perspective

Arxiv

0+阅读 · 2月5日

Length-Unbiased Sequence Policy Optimization: Revealing and Controlling Response Length Variation in RLVR

Arxiv

0+阅读 · 2月5日

Extending RLVR to Open-Ended Tasks via Verifiable Multiple-Choice Reformulation

Arxiv

0+阅读 · 2月4日

Beyond Variance: Prompt-Efficient RLVR via Rare-Event Amplification and Bidirectional Pairing

Arxiv

0+阅读 · 2月3日

Extending RLVR to Open-Ended Tasks via Verifiable Multiple-Choice Reformulation

Arxiv

0+阅读 · 2月2日

P2S: Probabilistic Process Supervision for General-Domain Reasoning Question Answering

Arxiv

0+阅读 · 1月28日

Dual-Uncertainty Guided Policy Learning for Multimodal Reasoning

Arxiv

0+阅读 · 1月15日

ICPO: Intrinsic Confidence-Driven Group Relative Preference Optimization for Efficient Reinforcement Learning

Arxiv

0+阅读 · 1月13日

IIB-LPO: Latent Policy Optimization via Iterative Information Bottleneck

Arxiv

0+阅读 · 1月9日

Orchestrating Tokens and Sequences: Dynamic Hybrid Policy Optimization for RLVR

Arxiv

0+阅读 · 1月9日

VIP会员

文章信息

相关主题

相关VIP内容

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

专知会员服务

13+阅读 · 2025年12月19日

【ICML2025】组合优化问题中的偏好优化

【ICML2025】组合优化问题中的偏好优化

专知会员服务

12+阅读 · 2025年5月17日

《直接偏好优化研究综述》

《直接偏好优化研究综述》

专知会员服务

31+阅读 · 2025年3月18日

《基于深度强化学习的战场策略》

《基于深度强化学习的战场策略》

专知会员服务

37+阅读 · 2025年1月13日

【ETHZ博士论文】样本高效的基于模型的强化学习：零阶轨迹优化、策略蒸馏和距离学习的分析

【ETHZ博士论文】样本高效的基于模型的强化学习：零阶轨迹优化、策略蒸馏和距离学习的分析

专知会员服务

44+阅读 · 2023年12月6日

【ETHZ博士论文】基于人类反馈的安全高效强化学习算法基础， 258页pdf

【ETHZ博士论文】基于人类反馈的安全高效强化学习算法基础， 258页pdf

专知会员服务

52+阅读 · 2023年10月8日

【新书推荐】清华最新《RL for Sequential Decision and Optimal Control》书籍

【新书推荐】清华最新《RL for Sequential Decision and Optimal Control》书籍

专知会员服务

74+阅读 · 2023年5月21日

【CMU博士论文】强化学习可解释：统一状态和策略级解释，132页pdf

【CMU博士论文】强化学习可解释：统一状态和策略级解释，132页pdf

专知会员服务

40+阅读 · 2022年11月22日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知会员服务

89+阅读 · 2022年11月17日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】基于自适应表征的高效视觉建模

《多域作战中融合网络、电子战与动能机动》

AI智能体时代大模型安全风险与攻防新挑战

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

相关资讯

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

32+阅读 · 2022年11月12日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

深度学习在CTR预估中的应用 | CTR深度模型大盘点

深度学习在CTR预估中的应用 | CTR深度模型大盘点

PaperWeekly

15+阅读 · 2018年4月11日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

Rewards as Labels: Revisiting RLVR from a Classification Perspective

Arxiv

0+阅读 · 2月5日

Length-Unbiased Sequence Policy Optimization: Revealing and Controlling Response Length Variation in RLVR

Arxiv

0+阅读 · 2月5日

Extending RLVR to Open-Ended Tasks via Verifiable Multiple-Choice Reformulation

Arxiv

0+阅读 · 2月4日

Beyond Variance: Prompt-Efficient RLVR via Rare-Event Amplification and Bidirectional Pairing

Arxiv

0+阅读 · 2月3日

Extending RLVR to Open-Ended Tasks via Verifiable Multiple-Choice Reformulation

Arxiv

0+阅读 · 2月2日

P2S: Probabilistic Process Supervision for General-Domain Reasoning Question Answering

Arxiv

0+阅读 · 1月28日

Dual-Uncertainty Guided Policy Learning for Multimodal Reasoning

Arxiv

0+阅读 · 1月15日

ICPO: Intrinsic Confidence-Driven Group Relative Preference Optimization for Efficient Reinforcement Learning

Arxiv

0+阅读 · 1月13日

IIB-LPO: Latent Policy Optimization via Iterative Information Bottleneck

Arxiv

0+阅读 · 1月9日

Orchestrating Tokens and Sequences: Dynamic Hybrid Policy Optimization for RLVR

Arxiv

0+阅读 · 1月9日

相关基金

基于参数和结构优化的置信规则库推理方法研究

国家自然科学基金

5+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

42+阅读 · 2015年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于中智集的模糊多属性决策理论、方法与应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员