约束化群体相对策略优化 (Constrained Group Relative Policy Optimization) - 专知论文

会员服务 ·

0

约束 · 策略优化 · 标量 · 松弛 · 约束学习 ·

Constrained Group Relative Policy Optimization

翻译：约束化群体相对策略优化

Roger Girgis,Rodrigue de Schaetzen,Luke Rowe,Azalée Robitaille,Christopher Pal,Liam Paull

from arxiv, 16 pages, 6 figures

While Group Relative Policy Optimization (GRPO) has emerged as a scalable framework for critic-free policy learning, extending it to settings with explicit behavioral constraints remains underexplored. We introduce Constrained GRPO, a Lagrangian-based extension of GRPO for constrained policy optimization. Constraints are specified via indicator cost functions, enabling direct optimization of violation rates through a Lagrangian relaxation. We show that a naive multi-component treatment in advantage estimation can break constrained learning: mismatched component-wise standard deviations distort the relative importance of the different objective terms, which in turn corrupts the Lagrangian signal and prevents meaningful constraint enforcement. We formally derive this effect to motivate our scalarized advantage construction that preserves the intended trade-off between reward and constraint terms. Experiments in a toy gridworld confirm the predicted optimization pathology and demonstrate that scalarizing advantages restores stable constraint control. In addition, we evaluate Constrained GRPO on robotics tasks, where it improves constraint satisfaction while increasing task success, establishing a simple and effective recipe for constrained policy optimization in embodied AI domains that increasingly rely on large multimodal foundation models.

翻译：尽管群体相对策略优化（GRPO）已成为一种可扩展的无评论者策略学习框架，但将其扩展到具有显式行为约束的场景仍缺乏深入探索。我们提出了约束化GRPO，这是一种基于拉格朗日方法的GRPO扩展，用于约束化策略优化。约束通过指示器成本函数指定，使得能够通过拉格朗日松弛直接优化违反率。我们发现，在优势估计中采用朴素的多分量处理方法会破坏约束学习：不匹配的分量标准差会扭曲不同目标项的相对重要性，进而破坏拉格朗日信号并阻碍有效的约束实施。我们通过形式化推导揭示了这一效应，从而提出了我们的标量化优势构建方法，该方法保持了奖励项与约束项之间预期的权衡关系。在玩具网格世界中的实验证实了所预测的优化病理现象，并证明标量化优势能够恢复稳定的约束控制。此外，我们在机器人任务上评估了约束化GRPO，结果表明它在提高任务成功率的同时改善了约束满足度，为日益依赖大型多模态基础模型的具身AI领域中的约束化策略优化提供了一种简单而有效的方案。

0

相关内容

【阿姆斯特丹博士论文】带约束学习的优化算法

【阿姆斯特丹博士论文】带约束学习的优化算法

专知会员服务

19+阅读 · 2025年4月4日

《图强化学习在组合优化中的应用》综述

《图强化学习在组合优化中的应用》综述

专知会员服务

60+阅读 · 2024年4月10日

【MIT博士论文】在结构约束下的机器学习优化方法, 257页pdf

【MIT博士论文】在结构约束下的机器学习优化方法, 257页pdf

专知会员服务

39+阅读 · 2023年8月6日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知会员服务

100+阅读 · 2022年11月24日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【普林斯顿干货书】强化学习与随机优化，728页pdf阐述序列决策统一框架

【普林斯顿干货书】强化学习与随机优化，728页pdf阐述序列决策统一框架

专知会员服务

131+阅读 · 2021年4月25日

约束进化算法及其应用研究综述

专知会员服务

31+阅读 · 2021年4月12日

【教程】场景优化理论讲座资料，60页pdf跟踪最新领域进展

【教程】场景优化理论讲座资料，60页pdf跟踪最新领域进展

专知会员服务

38+阅读 · 2020年5月21日

【斯坦福大学】Dropout的隐性和显性正则化效应，Regularization Effects

【斯坦福大学】Dropout的隐性和显性正则化效应，Regularization Effects

专知会员服务

34+阅读 · 2020年3月4日

【KDD2019|讲座推荐】优化群体智能：推理、学习和教学：Optimize the Wisdom of the Crowd: Inference, Learning, and Teaching

【KDD2019|讲座推荐】优化群体智能：推理、学习和教学：Optimize the Wisdom of the Crowd: Inference, Learning, and Teaching

专知会员服务

15+阅读 · 2019年12月11日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

机器学习与组合优化如何结合？这份AAAI2021教程讲述「机器学习组合优化」进展，附240页ppt

机器学习与组合优化如何结合？这份AAAI2021教程讲述「机器学习组合优化」进展，附240页ppt

专知

23+阅读 · 2021年2月16日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

专知

58+阅读 · 2020年7月2日

基于车路协同的群体智能协同

基于车路协同的群体智能协同

智能交通技术

10+阅读 · 2019年1月23日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

专知

25+阅读 · 2018年4月29日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

42+阅读 · 2015年12月31日

复杂动态网络上演化博弈的群体策略选择和干预机制研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于多目标优化的约束模式挖掘方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

量化约束满足问题相变现象研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂决策环境下面向共识的群体评价模型与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机环境下多个体系统集体行为分析、调控与优化

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

演化优化的自适应约束处理机理及在生化过程中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

合作竞争网络中异质个体的群集行为研究

国家自然科学基金

0+阅读 · 2015年12月31日

非线性约束全局优化的新方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

Token Hidden Reward: Steering Exploration-Exploitation in Group Relative Deep Reinforcement Learning

Arxiv

0+阅读 · 2月15日

EBPO: Empirical Bayes Shrinkage for Stabilizing Group-Relative Policy Optimization

Arxiv

0+阅读 · 2月7日

AEGPO: Adaptive Entropy-Guided Policy Optimization for Diffusion Models

Arxiv

0+阅读 · 2月6日

Stochastic Decision Horizons for Constrained Reinforcement Learning

Arxiv

0+阅读 · 2月4日

Self-Hinting Language Models Enhance Reinforcement Learning

Arxiv

0+阅读 · 2月3日

PolicyFlow: Policy Optimization with Continuous Normalizing Flow in Reinforcement Learning

Arxiv

0+阅读 · 2月1日

FedMOA: Federated GRPO for Personalized Reasoning LLMs under Heterogeneous Rewards

Arxiv

0+阅读 · 1月31日

From Absolute to Relative: Rethinking Reward Shaping in Group-Based Reinforcement Learning

Arxiv

0+阅读 · 1月30日

Automatic Constraint Policy Optimization based on Continuous Constraint Interpolation Framework for Offline Reinforcement Learning

Arxiv

0+阅读 · 1月30日

Value-at-Risk Constrained Policy Optimization

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

相关VIP内容

【阿姆斯特丹博士论文】带约束学习的优化算法

【阿姆斯特丹博士论文】带约束学习的优化算法

专知会员服务

19+阅读 · 2025年4月4日

《图强化学习在组合优化中的应用》综述

《图强化学习在组合优化中的应用》综述

专知会员服务

60+阅读 · 2024年4月10日

【MIT博士论文】在结构约束下的机器学习优化方法, 257页pdf

【MIT博士论文】在结构约束下的机器学习优化方法, 257页pdf

专知会员服务

39+阅读 · 2023年8月6日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知会员服务

100+阅读 · 2022年11月24日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【普林斯顿干货书】强化学习与随机优化，728页pdf阐述序列决策统一框架

【普林斯顿干货书】强化学习与随机优化，728页pdf阐述序列决策统一框架

专知会员服务

131+阅读 · 2021年4月25日

约束进化算法及其应用研究综述

专知会员服务

31+阅读 · 2021年4月12日

【教程】场景优化理论讲座资料，60页pdf跟踪最新领域进展

【教程】场景优化理论讲座资料，60页pdf跟踪最新领域进展

专知会员服务

38+阅读 · 2020年5月21日

【斯坦福大学】Dropout的隐性和显性正则化效应，Regularization Effects

【斯坦福大学】Dropout的隐性和显性正则化效应，Regularization Effects

专知会员服务

34+阅读 · 2020年3月4日

【KDD2019|讲座推荐】优化群体智能：推理、学习和教学：Optimize the Wisdom of the Crowd: Inference, Learning, and Teaching

【KDD2019|讲座推荐】优化群体智能：推理、学习和教学：Optimize the Wisdom of the Crowd: Inference, Learning, and Teaching

专知会员服务

15+阅读 · 2019年12月11日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】基于自适应表征的高效视觉建模

《多域作战中融合网络、电子战与动能机动》

AI智能体时代大模型安全风险与攻防新挑战

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

相关资讯

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

机器学习与组合优化如何结合？这份AAAI2021教程讲述「机器学习组合优化」进展，附240页ppt

机器学习与组合优化如何结合？这份AAAI2021教程讲述「机器学习组合优化」进展，附240页ppt

专知

23+阅读 · 2021年2月16日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

专知

58+阅读 · 2020年7月2日

基于车路协同的群体智能协同

基于车路协同的群体智能协同

智能交通技术

10+阅读 · 2019年1月23日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

专知

25+阅读 · 2018年4月29日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

Token Hidden Reward: Steering Exploration-Exploitation in Group Relative Deep Reinforcement Learning

Arxiv

0+阅读 · 2月15日

EBPO: Empirical Bayes Shrinkage for Stabilizing Group-Relative Policy Optimization

Arxiv

0+阅读 · 2月7日

AEGPO: Adaptive Entropy-Guided Policy Optimization for Diffusion Models

Arxiv

0+阅读 · 2月6日

Stochastic Decision Horizons for Constrained Reinforcement Learning

Arxiv

0+阅读 · 2月4日

Self-Hinting Language Models Enhance Reinforcement Learning

Arxiv

0+阅读 · 2月3日

PolicyFlow: Policy Optimization with Continuous Normalizing Flow in Reinforcement Learning

Arxiv

0+阅读 · 2月1日

FedMOA: Federated GRPO for Personalized Reasoning LLMs under Heterogeneous Rewards

Arxiv

0+阅读 · 1月31日

From Absolute to Relative: Rethinking Reward Shaping in Group-Based Reinforcement Learning

Arxiv

0+阅读 · 1月30日

Automatic Constraint Policy Optimization based on Continuous Constraint Interpolation Framework for Offline Reinforcement Learning

Arxiv

0+阅读 · 1月30日

Value-at-Risk Constrained Policy Optimization

Arxiv

0+阅读 · 1月30日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

42+阅读 · 2015年12月31日

复杂动态网络上演化博弈的群体策略选择和干预机制研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于多目标优化的约束模式挖掘方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

量化约束满足问题相变现象研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂决策环境下面向共识的群体评价模型与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机环境下多个体系统集体行为分析、调控与优化

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

演化优化的自适应约束处理机理及在生化过程中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

合作竞争网络中异质个体的群集行为研究

国家自然科学基金

0+阅读 · 2015年12月31日

非线性约束全局优化的新方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员