Reinforcement learning (RL) is a dominant paradigm for training autonomous agents, yet these agents often exhibit poor generalization, failing to adapt to scenarios not seen during training. In this work, we identify a fundamental cause of this brittleness, a phenomenon which we term "gradient coupling." We hypothesize that in complex agentic tasks, the high similarity between distinct states leads to destructive interference between gradients. Specifically, a gradient update that reinforces an optimal action in one state can inadvertently increase the likelihood of a suboptimal action in a similar, yet different, state. To solve this, we propose a novel objective where the actor is trained to simultaneously function as a classifier that separates good and bad actions. This auxiliary pressure compels the model to learn disentangled embeddings for positive and negative actions, which mitigates negative gradient interference and improve the generalization performance. Extensive experiments demonstrate the effectiveness of our method.


翻译:强化学习(RL)是训练自主智能体的主流范式,然而这些智能体通常表现出较差的泛化能力,难以适应训练中未见的场景。在本研究中,我们揭示了导致这种脆弱性的一个根本原因,并将其称为“梯度耦合”现象。我们假设,在复杂的智能体任务中,不同状态之间的高度相似性会导致梯度间的破坏性干扰。具体而言,在一个状态中强化最优动作的梯度更新,可能会无意中增加在相似但不同的状态中采取次优动作的概率。为解决这一问题,我们提出了一种新颖的目标函数,其中行动者被训练为同时充当区分好动作与坏动作的分类器。这种辅助压力迫使模型学习正负动作的解耦嵌入表示,从而减轻负梯度干扰并提升泛化性能。大量实验验证了我们方法的有效性。

0
下载
关闭预览

相关内容

梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。
【博士论文】受脑启发的规划:提升强化学习泛化能力
专知会员服务
14+阅读 · 2025年11月13日
《改进单智能体和多智能体深度强化学习方法》219页
专知会员服务
61+阅读 · 2025年2月14日
自动驾驶中的多智能体强化学习综述
专知会员服务
47+阅读 · 2024年8月20日
【CMU博士论文】强化学习泛化性与效率研究,206页pdf
专知会员服务
73+阅读 · 2023年2月23日
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
94+阅读 · 2020年9月28日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
关于强化学习(附代码,练习和解答)
深度学习
37+阅读 · 2018年1月30日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
VIP会员
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员