We study the problem of computing an optimal large language model (LLM) policy for the constrained alignment problem, where the goal is to maximize a primary reward objective while satisfying constraints on secondary utilities. Despite the popularity of Lagrangian-based LLM policy search in constrained alignment, iterative primal-dual methods often fail to converge, and non-iterative dual-based methods do not achieve optimality in the LLM parameter space. To address these challenges, we employ Lagrangian duality to develop an iterative dual-based alignment method that alternates between updating the LLM policy via Lagrangian maximization and updating the dual variable via dual descent. In theory, we characterize the primal-dual gap between the primal value in the distribution space and the dual value in the LLM parameter space. We further quantify the optimality gap of the learned LLM policies at near-optimal dual variables with respect to both the objective and the constraint functions. These results prove that dual-based alignment methods can find an optimal constrained LLM policy, up to an LLM parametrization gap. We demonstrate the effectiveness and merits of our approach through extensive experiments conducted on the PKU-SafeRLHF and Anthropic HH-RLHF datasets.


翻译:本文研究了在约束对齐问题中计算最优大语言模型(LLM)策略的问题,其目标是在满足次要效用约束的条件下最大化主要奖励目标。尽管基于拉格朗日方法的LLM策略搜索在约束对齐中应用广泛,但迭代的原始-对偶方法常难以收敛,而非迭代的对偶方法在LLM参数空间中无法达到最优性。为解决这些挑战,我们利用拉格朗日对偶理论,提出了一种迭代的对偶对齐方法,该方法通过在拉格朗日最大化中更新LLM策略与在对偶下降中更新对偶变量之间交替进行。在理论上,我们刻画了分布空间中的原始值与LLM参数空间中对偶值之间的原始-对偶间隙。进一步地,我们量化了在接近最优对偶变量下学习的LLM策略在目标函数和约束函数方面的最优性差距。这些结果证明了对偶对齐方法能够找到一个最优的约束LLM策略,直至一个LLM参数化间隙。通过在PKU-SafeRLHF和Anthropic HH-RLHF数据集上进行的大量实验,我们验证了所提方法的有效性和优势。

0
下载
关闭预览

相关内容

UnHiPPO:面向不确定性的状态空间模型初始化方法
专知会员服务
11+阅读 · 2025年6月6日
【TPAMI2023】面向双任务对话语言理解的关系时序图推理
专知会员服务
23+阅读 · 2023年7月5日
【ICML2022】基于自适应上下文池化的高效表示学习
专知会员服务
20+阅读 · 2022年7月9日
【AAAI2022】通过多任务学习改进证据深度学习
专知会员服务
20+阅读 · 2021年12月21日
【NeurIPS2021】序一致因果图的多任务学习
专知会员服务
20+阅读 · 2021年11月7日
专知会员服务
22+阅读 · 2021年10月8日
专知会员服务
36+阅读 · 2021年8月17日
专知会员服务
19+阅读 · 2021年8月15日
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
图节点嵌入(Node Embeddings)概述,9页pdf
专知
15+阅读 · 2020年8月22日
数据分析师应该知道的16种回归技术:岭回归
数萃大数据
15+阅读 · 2018年8月11日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
18+阅读 · 2024年12月27日
Arxiv
175+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
499+阅读 · 2023年3月31日
Arxiv
83+阅读 · 2023年3月26日
VIP会员
相关VIP内容
UnHiPPO:面向不确定性的状态空间模型初始化方法
专知会员服务
11+阅读 · 2025年6月6日
【TPAMI2023】面向双任务对话语言理解的关系时序图推理
专知会员服务
23+阅读 · 2023年7月5日
【ICML2022】基于自适应上下文池化的高效表示学习
专知会员服务
20+阅读 · 2022年7月9日
【AAAI2022】通过多任务学习改进证据深度学习
专知会员服务
20+阅读 · 2021年12月21日
【NeurIPS2021】序一致因果图的多任务学习
专知会员服务
20+阅读 · 2021年11月7日
专知会员服务
22+阅读 · 2021年10月8日
专知会员服务
36+阅读 · 2021年8月17日
专知会员服务
19+阅读 · 2021年8月15日
相关论文
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员