强化学习已成为提升智能系统能力的一种强大范式,但其实际部署面临两个核心挑战。首先,强化学习必须能够在通信带宽受限、且各智能体计算能力异构的分布式环境中高效扩展。其次,随着强化学习越来越多地被用于大语言模型和自主智能体的后训练,所优化得到的策略还必须与人类偏好保持一致,并满足诸如隐私感知的信息披露等安全要求。本论文围绕这两类挑战展开研究,通过四项互补性贡献,从联邦优化、偏好对齐和上下文安全等方面加以解决。

论文第一部分研究联邦场景下的可扩展强化学习。我们提出了 FedNPG-ADMM,这是一种面向同步联邦强化学习的通信高效框架,将交替方向乘子法(alternating direction method of multipliers, ADMM)与自然策略梯度优化相结合。FedNPG-ADMM 将每轮迭代的通信复杂度从 (O(d^2)) 降低到 (O(d)),其中 (d) 表示模型参数数量,同时保留了标准联邦自然策略梯度方法的驻点收敛保证。我们进一步提出 AFedPG,这是一种异步联邦强化学习框架,能够在计算速度异构的条件下提升效率。为了解决异步场景中的陈旧更新问题,AFedPG 采用了一种延迟自适应的前瞻技术,用以刻画所接收梯度的陈旧程度。我们证明,AFedPG 达到 (O(\epsilon^{-2.5}/N)) 的样本复杂度,从而相对于智能体数量实现线性加速,并将全局时间复杂度从 (O(t_{\max}/N)) 改进为 (O\left((\sum_{i=1}^{N} 1/t_i)^{-1}\right)),其中 (t_i) 表示智能体 (i) 的计算时间。在 MuJoCo 基准上的大量实验验证了这些理论结果:FedNPG-ADMM 在保持与标准 FedNPG 相当的奖励性能的同时,显著降低了通信开销;AFedPG 则在异构环境下的收敛速度和可扩展性方面持续优于同步方法。

论文第二部分研究面向大语言模型的可信强化学习。我们提出了最大后验偏好优化(Maximum a Posteriori Preference Optimization, MaPPO),这是一种有原则的偏好优化框架,将先验奖励知识纳入最大后验目标中。基于直接偏好优化(Direct Preference Optimization, DPO)范式,MaPPO 通过超越将偏好对简单视为纯二分类问题的极大似然处理方式,对 DPO 及其变体进行了推广。MaPPO 同时支持离线和在线场景,不需要额外超参数,并可作为 DPO 变体(如 SimPO、IPO 和 CPO)的插件使用。基于 MT-Bench、AlpacaEval 2.0 和 Arena-Hard 等标准对齐基准的实证评估表明,在不牺牲计算效率的情况下,MaPPO 能够在多个模型家族和不同模型规模上稳定提升对齐性能。

我们进一步研究大语言模型中的上下文完整性,这是一种关于在给定上下文中披露何种信息才是适当的安全属性。我们首先表明,显式地围绕上下文完整性进行推理,可以提升模型区分哪些信息应当共享、哪些信息不应共享的能力。基于这一发现,我们开发了一种基于强化学习的后训练框架,将上下文完整性推理直接注入模型策略中。利用一个包含约 700 个自动生成样例的合成数据集,这些样例覆盖多样化领域和披露规范,我们表明所提出的方法能够在多个模型家族和规模上显著减少不适当的信息披露,同时保持任务效用。重要的是,这些收益能够迁移到人工标注的 PrivacyLens 基准上,在该基准中,该方法实现了隐私泄露的大幅降低。 综上,这些贡献从两个互补维度推动了强化学习的发展。一方面,通过通信高效和异步的联邦优化方法,使强化学习更具可扩展性。另一方面,通过提升与人类偏好的对齐能力,并减少基于语言的智能系统中上下文不适当的信息披露,使强化学习更加可信。总体而言,本论文认为,下一代智能系统将同时需要高效优化与可信行为,而强化学习为实现这两个目标提供了一个统一框架。

成为VIP会员查看完整内容
0

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【NTU博士论文】基于协作式多智能体强化学习的决策制定
面向关系建模的合作多智能体深度强化学习综述
专知会员服务
41+阅读 · 2025年4月18日
多智能体强化学习控制与决策研究综述
专知会员服务
48+阅读 · 2024年11月23日
基于多智能体强化学习的博弈综述
专知会员服务
51+阅读 · 2024年11月23日
面向强化学习的可解释性研究综述
专知会员服务
44+阅读 · 2024年7月30日
基于学习机制的多智能体强化学习综述
专知会员服务
63+阅读 · 2024年4月16日
「基于通信的多智能体强化学习」 进展综述
【MIT博士论文】数据高效强化学习,176页pdf
【OpenAI】深度强化学习关键论文列表
专知
12+阅读 · 2018年11月10日
【微软亚研130PPT教程】强化学习简介
专知
37+阅读 · 2018年10月26日
一文了解强化学习
AI100
15+阅读 · 2018年8月20日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
VIP会员
最新内容
世界动作模型: 具身AI的下一个前沿
专知会员服务
0+阅读 · 今天12:28
全球十大防空反导系统:列表、射程与用途
专知会员服务
10+阅读 · 今天3:53
相关VIP内容
【NTU博士论文】基于协作式多智能体强化学习的决策制定
面向关系建模的合作多智能体深度强化学习综述
专知会员服务
41+阅读 · 2025年4月18日
多智能体强化学习控制与决策研究综述
专知会员服务
48+阅读 · 2024年11月23日
基于多智能体强化学习的博弈综述
专知会员服务
51+阅读 · 2024年11月23日
面向强化学习的可解释性研究综述
专知会员服务
44+阅读 · 2024年7月30日
基于学习机制的多智能体强化学习综述
专知会员服务
63+阅读 · 2024年4月16日
相关资讯
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员