While Group Relative Policy Optimization (GRPO) has emerged as a scalable framework for critic-free policy learning, extending it to settings with explicit behavioral constraints remains underexplored. We introduce Constrained GRPO, a Lagrangian-based extension of GRPO for constrained policy optimization. Constraints are specified via indicator cost functions, enabling direct optimization of violation rates through a Lagrangian relaxation. We show that a naive multi-component treatment in advantage estimation can break constrained learning: mismatched component-wise standard deviations distort the relative importance of the different objective terms, which in turn corrupts the Lagrangian signal and prevents meaningful constraint enforcement. We formally derive this effect to motivate our scalarized advantage construction that preserves the intended trade-off between reward and constraint terms. Experiments in a toy gridworld confirm the predicted optimization pathology and demonstrate that scalarizing advantages restores stable constraint control. In addition, we evaluate Constrained GRPO on robotics tasks, where it improves constraint satisfaction while increasing task success, establishing a simple and effective recipe for constrained policy optimization in embodied AI domains that increasingly rely on large multimodal foundation models.


翻译:尽管群体相对策略优化(GRPO)已成为一种可扩展的无评论者策略学习框架,但将其扩展到具有显式行为约束的场景中仍未得到充分探索。我们提出了约束化GRPO,这是一种基于拉格朗日方法的GRPO扩展,用于约束策略优化。约束通过指示器成本函数指定,从而能够通过拉格朗日松弛直接优化违反率。我们发现,在优势估计中采用朴素的多分量处理会破坏约束学习:不匹配的分量标准差会扭曲不同目标项的相对重要性,进而破坏拉格朗日信号并阻碍有效的约束执行。我们正式推导了这一效应,以论证我们提出的标量化优势构建方法,该方法保持了奖励项与约束项之间预期的权衡关系。在玩具网格世界中的实验证实了预测的优化病理现象,并表明标量化优势能够恢复稳定的约束控制。此外,我们在机器人任务上评估了约束化GRPO,结果表明它在提高任务成功率的同时改善了约束满足度,为日益依赖大型多模态基础模型的具身AI领域中的约束策略优化提供了一种简单而有效的方案。

0
下载
关闭预览

相关内容

【阿姆斯特丹博士论文】带约束学习的优化算法
专知会员服务
19+阅读 · 2025年4月4日
《图强化学习在组合优化中的应用》综述
专知会员服务
60+阅读 · 2024年4月10日
专知会员服务
31+阅读 · 2021年4月12日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员