Reinforcement Learning from Human Feedback (RLHF) plays a significant role in aligning Large Language Models (LLMs) with human preferences. While RLHF with expected reward constraints can be formulated as a primal-dual optimization problem, standard primal-dual methods only guarantee convergence with a distributional policy where the saddle-point problem is in convex-concave form. Moreover, standard primal-dual methods may exhibit instability or divergence in the last iterate under policy parameterization in practical applications. In this work, we propose a universal primal-dual framework for safe RLHF that unifies a broad class of existing alignment algorithms, including safe-RLHF, one-shot, and multi-shot based methods. Building on this framework, we introduce an optimistic primal-dual (OPD) algorithm that incorporates predictive updates for both primal and dual variables to stabilize saddle-point dynamics. We establish last-iterate convergence guarantees for the proposed method, covering both exact policy optimization in the distributional space and convergence to a neighborhood of the optimal solution whose gap is related to approximation error and bias under parameterized policies. Our analysis reveals that optimism plays a crucial role in mitigating oscillations inherent to constrained alignment objectives, thereby closing a key theoretical gap between constrained RL and practical RLHF.


翻译:基于人类反馈的强化学习(RLHF)在将大语言模型(LLMs)与人类偏好对齐方面发挥着重要作用。虽然带期望奖励约束的RLHF可表述为原始对偶优化问题,但标准原始对偶方法仅能保证在分布策略下的收敛性,此时鞍点问题呈凸凹形式。此外,在实际应用中,标准原始对偶方法在策略参数化下可能表现出末次迭代的不稳定性或发散性。本研究提出一个用于安全RLHF的通用原始对偶框架,该框架统一了包括安全RLHF、单轮及多轮方法在内的广泛现有对齐算法。基于此框架,我们提出一种乐观原始对偶(OPD)算法,该算法通过对原始变量和对偶变量同时引入预测性更新来稳定鞍点动态。我们为所提方法建立了末次迭代收敛保证,涵盖分布空间中的精确策略优化,以及在参数化策略下收敛到最优解邻域的情况——该邻域的间隙与近似误差及偏差相关。我们的分析表明,乐观机制在缓解约束对齐目标固有的振荡方面起着关键作用,从而弥合了约束强化学习与实际RLHF之间的重要理论鸿沟。

0
下载
关闭预览

相关内容

大语言模型的强化学习技术综述
专知会员服务
41+阅读 · 2025年7月8日
《直接偏好优化研究综述》
专知会员服务
31+阅读 · 2025年3月18日
强化学习增强的大型语言模型:综述
专知会员服务
52+阅读 · 2024年12月17日
迈向大语言模型偏好学习的统一视角综述
专知会员服务
24+阅读 · 2024年9月7日
大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等
专知会员服务
55+阅读 · 2024年7月24日
大型语言模型增强强化学习综述:概念、分类和方法
专知会员服务
57+阅读 · 2024年4月4日
大型语言模型对齐
专知会员服务
120+阅读 · 2023年9月27日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
【ICLR2022顶会论文分享】PPO算法的37个Implementation细节
深度强化学习实验室
24+阅读 · 2022年5月4日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
超越网格:作战环境对炮兵的影响
专知会员服务
2+阅读 · 5月31日
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
5+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
4+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
18+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
10+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
相关VIP内容
大语言模型的强化学习技术综述
专知会员服务
41+阅读 · 2025年7月8日
《直接偏好优化研究综述》
专知会员服务
31+阅读 · 2025年3月18日
强化学习增强的大型语言模型:综述
专知会员服务
52+阅读 · 2024年12月17日
迈向大语言模型偏好学习的统一视角综述
专知会员服务
24+阅读 · 2024年9月7日
大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等
专知会员服务
55+阅读 · 2024年7月24日
大型语言模型增强强化学习综述:概念、分类和方法
专知会员服务
57+阅读 · 2024年4月4日
大型语言模型对齐
专知会员服务
120+阅读 · 2023年9月27日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员