约束化群体相对策略优化 (Constrained Group Relative Policy Optimization) - 专知论文

会员服务 ·

0

约束 · 策略优化 · 相对策略优化 · 标量 · 松弛 ·

Constrained Group Relative Policy Optimization

翻译：约束化群体相对策略优化

Roger Girgis,Rodrigue de Schaetzen,Luke Rowe,Azalée Robitaille,Christopher Pal,Liam Paull

from arxiv, 16 pages, 6 figures

While Group Relative Policy Optimization (GRPO) has emerged as a scalable framework for critic-free policy learning, extending it to settings with explicit behavioral constraints remains underexplored. We introduce Constrained GRPO, a Lagrangian-based extension of GRPO for constrained policy optimization. Constraints are specified via indicator cost functions, enabling direct optimization of violation rates through a Lagrangian relaxation. We show that a naive multi-component treatment in advantage estimation can break constrained learning: mismatched component-wise standard deviations distort the relative importance of the different objective terms, which in turn corrupts the Lagrangian signal and prevents meaningful constraint enforcement. We formally derive this effect to motivate our scalarized advantage construction that preserves the intended trade-off between reward and constraint terms. Experiments in a toy gridworld confirm the predicted optimization pathology and demonstrate that scalarizing advantages restores stable constraint control. In addition, we evaluate Constrained GRPO on robotics tasks, where it improves constraint satisfaction while increasing task success, establishing a simple and effective recipe for constrained policy optimization in embodied AI domains that increasingly rely on large multimodal foundation models.

翻译：尽管群体相对策略优化（GRPO）已成为一种可扩展的无评论者策略学习框架，但将其扩展到具有显式行为约束的场景中仍未得到充分探索。我们提出了约束化GRPO，这是一种基于拉格朗日方法的GRPO扩展，用于约束策略优化。约束通过指示器成本函数指定，从而能够通过拉格朗日松弛直接优化违反率。我们发现，在优势估计中采用朴素的多分量处理会破坏约束学习：不匹配的分量标准差会扭曲不同目标项的相对重要性，进而破坏拉格朗日信号并阻碍有效的约束执行。我们正式推导了这一效应，以论证我们提出的标量化优势构建方法，该方法保持了奖励项与约束项之间预期的权衡关系。在玩具网格世界中的实验证实了预测的优化病理现象，并表明标量化优势能够恢复稳定的约束控制。此外，我们在机器人任务上评估了约束化GRPO，结果表明它在提高任务成功率的同时改善了约束满足度，为日益依赖大型多模态基础模型的具身AI领域中的约束策略优化提供了一种简单而有效的方案。

0

相关内容

生成模型中组相对策略优化 (GRPO) 的研究进展：综述

生成模型中组相对策略优化 (GRPO) 的研究进展：综述

专知会员服务

8+阅读 · 3月10日

【阿姆斯特丹博士论文】带约束学习的优化算法

【阿姆斯特丹博士论文】带约束学习的优化算法

专知会员服务

19+阅读 · 2025年4月4日

《图强化学习在组合优化中的应用》综述

《图强化学习在组合优化中的应用》综述

专知会员服务

60+阅读 · 2024年4月10日

【MIT博士论文】在结构约束下的机器学习优化方法, 257页pdf

【MIT博士论文】在结构约束下的机器学习优化方法, 257页pdf

专知会员服务

39+阅读 · 2023年8月6日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知会员服务

100+阅读 · 2022年11月24日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【普林斯顿干货书】强化学习与随机优化，728页pdf阐述序列决策统一框架

【普林斯顿干货书】强化学习与随机优化，728页pdf阐述序列决策统一框架

专知会员服务

132+阅读 · 2021年4月25日

约束进化算法及其应用研究综述

专知会员服务

31+阅读 · 2021年4月12日

【教程】场景优化理论讲座资料，60页pdf跟踪最新领域进展

【教程】场景优化理论讲座资料，60页pdf跟踪最新领域进展

专知会员服务

38+阅读 · 2020年5月21日

【KDD2019|讲座推荐】优化群体智能：推理、学习和教学：Optimize the Wisdom of the Crowd: Inference, Learning, and Teaching

【KDD2019|讲座推荐】优化群体智能：推理、学习和教学：Optimize the Wisdom of the Crowd: Inference, Learning, and Teaching

专知会员服务

15+阅读 · 2019年12月11日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

机器学习与组合优化如何结合？这份AAAI2021教程讲述「机器学习组合优化」进展，附240页ppt

机器学习与组合优化如何结合？这份AAAI2021教程讲述「机器学习组合优化」进展，附240页ppt

专知

23+阅读 · 2021年2月16日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

专知

58+阅读 · 2020年7月2日

基于车路协同的群体智能协同

基于车路协同的群体智能协同

智能交通技术

10+阅读 · 2019年1月23日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

专知

25+阅读 · 2018年4月29日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

复杂动态网络上演化博弈的群体策略选择和干预机制研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于多目标优化的约束模式挖掘方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

量化约束满足问题相变现象研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂决策环境下面向共识的群体评价模型与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机环境下多个体系统集体行为分析、调控与优化

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

演化优化的自适应约束处理机理及在生化过程中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

合作竞争网络中异质个体的群集行为研究

国家自然科学基金

0+阅读 · 2015年12月31日

非线性约束全局优化的新方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

TIC-GRPO: Provable and Efficient Optimization for Reinforcement Learning from Human Feedback

Arxiv

0+阅读 · 3月6日

Demystifying Group Relative Policy Optimization: Its Policy Gradient is a U-Statistic

Arxiv

0+阅读 · 3月3日

EBPO: Empirical Bayes Shrinkage for Stabilizing Group-Relative Policy Optimization

Arxiv

0+阅读 · 2月23日

Token Hidden Reward: Steering Exploration-Exploitation in Group Relative Deep Reinforcement Learning

Arxiv

0+阅读 · 2月15日

AEGPO: Adaptive Entropy-Guided Policy Optimization for Diffusion Models

Arxiv

0+阅读 · 2月6日

Stochastic Decision Horizons for Constrained Reinforcement Learning

Arxiv

0+阅读 · 2月4日

PolicyFlow: Policy Optimization with Continuous Normalizing Flow in Reinforcement Learning

Arxiv

0+阅读 · 2月1日

FedMOA: Federated GRPO for Personalized Reasoning LLMs under Heterogeneous Rewards

Arxiv

0+阅读 · 1月31日

Automatic Constraint Policy Optimization based on Continuous Constraint Interpolation Framework for Offline Reinforcement Learning

Arxiv

0+阅读 · 1月30日

Value-at-Risk Constrained Policy Optimization

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

相对策略优化

最新内容

《面向战术决策的广义智能：大语言模型驱动的动态武器-目标分配》

《面向战术决策的广义智能：大语言模型驱动的动态武器-目标分配》

专知会员服务

6+阅读 · 今天6:31

《分布式军事人工智能理论：部分可观测与通信条件下的协调约束多智能体强化学习》

《分布式军事人工智能理论：部分可观测与通信条件下的协调约束多智能体强化学习》

专知会员服务

4+阅读 · 今天6:28

《第四代军事特种作战部队选拔与评估》

《第四代军事特种作战部队选拔与评估》

专知会员服务

1+阅读 · 今天6:23

《迈向可解释强化学习及面向战略决策的定制化学习基准》（70页）

《迈向可解释强化学习及面向战略决策的定制化学习基准》（70页）

专知会员服务

3+阅读 · 今天6:19

美军有人-无人协同作战的下一阶段演进：分布式电子战构想

美军有人-无人协同作战的下一阶段演进：分布式电子战构想

专知会员服务

2+阅读 · 今天6:06

不对称优势上升：自主系统如何强化海上拒止

不对称优势上升：自主系统如何强化海上拒止

专知会员服务

1+阅读 · 今天5:51

延伸海上作战中心的触角：如何保持舰队从陆地到海洋的连通

延伸海上作战中心的触角：如何保持舰队从陆地到海洋的连通

专知会员服务

4+阅读 · 4月17日

美军“数据2030”概念设想：数字化杀伤链统一标准

美军“数据2030”概念设想：数字化杀伤链统一标准

专知会员服务

3+阅读 · 4月17日

《自主集群系统的战略架构：多域集成、韧性及海上作战框架（2025-2035）》（2026报告）

《自主集群系统的战略架构：多域集成、韧性及海上作战框架（2025-2035）》（2026报告）

专知会员服务

6+阅读 · 4月17日

前沿军事人工智能系统的理解与控制（报告1.8万字）

前沿军事人工智能系统的理解与控制（报告1.8万字）

专知会员服务

2+阅读 · 4月17日

《机器学习赋能情报工作：国家安全的机遇与风险》（报告）

《机器学习赋能情报工作：国家安全的机遇与风险》（报告）

专知会员服务

3+阅读 · 4月17日

《人工智能赋能电磁战》（报告）

《人工智能赋能电磁战》（报告）

专知会员服务

2+阅读 · 4月17日

《海基核巡航导弹（SLCM-N）部署后的威慑动态与操作要求》（报告）

《海基核巡航导弹（SLCM-N）部署后的威慑动态与操作要求》（报告）

专知会员服务

2+阅读 · 4月17日

超越卫星通信：战术无线电与网络防御如何锻造联盟韧性（美军报告）

超越卫星通信：战术无线电与网络防御如何锻造联盟韧性（美军报告）

专知会员服务

2+阅读 · 4月17日

【CMU博士论文】迈向可扩展的开放世界三维感知

【CMU博士论文】迈向可扩展的开放世界三维感知

专知会员服务

4+阅读 · 4月17日

相关VIP内容

生成模型中组相对策略优化 (GRPO) 的研究进展：综述

生成模型中组相对策略优化 (GRPO) 的研究进展：综述

专知会员服务

8+阅读 · 3月10日

【阿姆斯特丹博士论文】带约束学习的优化算法

【阿姆斯特丹博士论文】带约束学习的优化算法

专知会员服务

19+阅读 · 2025年4月4日

《图强化学习在组合优化中的应用》综述

《图强化学习在组合优化中的应用》综述

专知会员服务

60+阅读 · 2024年4月10日

【MIT博士论文】在结构约束下的机器学习优化方法, 257页pdf

【MIT博士论文】在结构约束下的机器学习优化方法, 257页pdf

专知会员服务

39+阅读 · 2023年8月6日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知会员服务

100+阅读 · 2022年11月24日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【普林斯顿干货书】强化学习与随机优化，728页pdf阐述序列决策统一框架

【普林斯顿干货书】强化学习与随机优化，728页pdf阐述序列决策统一框架

专知会员服务

132+阅读 · 2021年4月25日

约束进化算法及其应用研究综述

专知会员服务

31+阅读 · 2021年4月12日

【教程】场景优化理论讲座资料，60页pdf跟踪最新领域进展

【教程】场景优化理论讲座资料，60页pdf跟踪最新领域进展

专知会员服务

38+阅读 · 2020年5月21日

【KDD2019|讲座推荐】优化群体智能：推理、学习和教学：Optimize the Wisdom of the Crowd: Inference, Learning, and Teaching

【KDD2019|讲座推荐】优化群体智能：推理、学习和教学：Optimize the Wisdom of the Crowd: Inference, Learning, and Teaching

专知会员服务

15+阅读 · 2019年12月11日

热门VIP内容

开通专知VIP会员享更多权益服务

《分布式军事人工智能理论：部分可观测与通信条件下的协调约束多智能体强化学习》

《迈向可解释强化学习及面向战略决策的定制化学习基准》（70页）

《面向战术决策的广义智能：大语言模型驱动的动态武器-目标分配》

《第四代军事特种作战部队选拔与评估》

相关资讯

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

机器学习与组合优化如何结合？这份AAAI2021教程讲述「机器学习组合优化」进展，附240页ppt

机器学习与组合优化如何结合？这份AAAI2021教程讲述「机器学习组合优化」进展，附240页ppt

专知

23+阅读 · 2021年2月16日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

专知

58+阅读 · 2020年7月2日

基于车路协同的群体智能协同

基于车路协同的群体智能协同

智能交通技术

10+阅读 · 2019年1月23日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

专知

25+阅读 · 2018年4月29日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

TIC-GRPO: Provable and Efficient Optimization for Reinforcement Learning from Human Feedback

Arxiv

0+阅读 · 3月6日

Demystifying Group Relative Policy Optimization: Its Policy Gradient is a U-Statistic

Arxiv

0+阅读 · 3月3日

EBPO: Empirical Bayes Shrinkage for Stabilizing Group-Relative Policy Optimization

Arxiv

0+阅读 · 2月23日

Token Hidden Reward: Steering Exploration-Exploitation in Group Relative Deep Reinforcement Learning

Arxiv

0+阅读 · 2月15日

AEGPO: Adaptive Entropy-Guided Policy Optimization for Diffusion Models

Arxiv

0+阅读 · 2月6日

Stochastic Decision Horizons for Constrained Reinforcement Learning

Arxiv

0+阅读 · 2月4日

PolicyFlow: Policy Optimization with Continuous Normalizing Flow in Reinforcement Learning

Arxiv

0+阅读 · 2月1日

FedMOA: Federated GRPO for Personalized Reasoning LLMs under Heterogeneous Rewards

Arxiv

0+阅读 · 1月31日

Automatic Constraint Policy Optimization based on Continuous Constraint Interpolation Framework for Offline Reinforcement Learning

Arxiv

0+阅读 · 1月30日

Value-at-Risk Constrained Policy Optimization

Arxiv

0+阅读 · 1月30日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

复杂动态网络上演化博弈的群体策略选择和干预机制研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于多目标优化的约束模式挖掘方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

量化约束满足问题相变现象研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂决策环境下面向共识的群体评价模型与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机环境下多个体系统集体行为分析、调控与优化

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

演化优化的自适应约束处理机理及在生化过程中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

合作竞争网络中异质个体的群集行为研究

国家自然科学基金

0+阅读 · 2015年12月31日

非线性约束全局优化的新方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员