Reinforcement learning from human feedback (RLHF) has become a cornerstone for aligning large language models with human preferences. However, the heterogeneity of human feedback, driven by diverse individual contexts and preferences, poses significant challenges for reward learning. To address this, we propose a Low-rank Contextual RLHF (LoCo-RLHF) framework that integrates contextual information to better model heterogeneous feedback while maintaining computational efficiency. Our approach builds on a contextual preference model, leveraging the intrinsic low-rank structure of the interaction between user contexts and query-answer pairs to mitigate the high dimensionality of feature representations. Furthermore, we address the challenge of distributional shifts in feedback through our Pessimism in Reduced Subspace (PRS) policy, inspired by pessimistic offline reinforcement learning techniques. We theoretically demonstrate that our policy achieves a tighter sub-optimality gap compared to existing methods. Extensive experiments validate the effectiveness of LoCo-RLHF, showcasing its superior performance in personalized RLHF settings and its robustness to distribution shifts.


翻译:基于人类反馈的强化学习已成为将大型语言模型与人类偏好对齐的基石。然而,由多样化的个体背景和偏好驱动的人类反馈异质性,为奖励学习带来了重大挑战。为解决此问题,我们提出了一种低秩上下文RLHF框架,该框架整合上下文信息以更好地建模异构反馈,同时保持计算效率。我们的方法建立在上下文偏好模型之上,利用用户上下文与查询-回答对之间交互的固有低秩结构来缓解特征表示的高维性问题。此外,我们通过受悲观离线强化学习技术启发的“降维子空间悲观”策略,解决了反馈中分布偏移的挑战。我们从理论上证明了与现有方法相比,我们的策略实现了更紧的次优性差距。大量实验验证了LoCo-RLHF的有效性,展示了其在个性化RLHF设置中的优越性能以及对分布偏移的鲁棒性。

0
下载
关闭预览

相关内容

【教程】通过人类反馈的强化学习,77页ppt
专知会员服务
38+阅读 · 2024年10月5日
基于人工反馈的强化学习综述
专知会员服务
65+阅读 · 2023年12月25日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
【论文笔记】基于强化学习的人机对话
专知
20+阅读 · 2019年9月21日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2月27日
VIP会员
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员