Reinforcement learning (RL) is central to post-training, particularly for agentic models that require specialized reasoning behaviors. In this setting, model merging offers a practical mechanism for integrating multiple RL-trained agents from different tasks into a single generalist model. However, existing merging methods are designed for supervised fine-tuning (SFT), and they are suboptimal to preserve task-specific capabilities on RL-trained agentic models. The root is a task-vector mismatch between RL and SFT: on-policy RL induces task vectors that are highly sparse and heterogeneous, whereas SFT-style merging implicitly assumes dense and globally comparable task vectors. When standard global averaging is applied under this mismatch, RL's non-overlapping task vectors that encode critical task-specific behaviors are reduced and parameter updates are diluted. To address this issue, we propose Reinforced Agent Merging (RAM), a distribution-aware merging framework explicitly designed for RL-trained agentic models. RAM disentangles shared and task-specific unique parameter updates, averaging shared components while selectively preserving and rescaling unique ones to counteract parameter update dilution. Experiments across multiple agent domains and model architectures demonstrate that RAM not only surpasses merging baselines, but also unlocks synergistic potential among agents to achieve performance superior to that of specialized agents in their domains.


翻译:强化学习(RL)是后训练阶段的核心,尤其对于需要专门推理行为的智能体模型而言。在此背景下,模型融合提供了一种实用机制,可将来自不同任务的多个经过RL训练的智能体整合为一个通用模型。然而,现有的融合方法专为监督微调(SFT)设计,在保留RL训练智能体模型的任务特定能力方面效果欠佳。其根源在于RL与SFT之间存在任务向量失配:基于策略的RL产生的任务向量高度稀疏且异质,而SFT式融合方法隐含假设任务向量密集且全局可比。在这种失配情况下应用标准全局平均法时,RL中编码关键任务特定行为的非重叠任务向量会被削弱,参数更新亦被稀释。为解决此问题,我们提出强化智能体融合(RAM),这是一个专为RL训练智能体模型设计的分布感知融合框架。RAM解耦共享参数更新与任务特定独特参数更新,对共享组件进行平均处理,同时选择性保留并重新缩放独特组件以抵消参数更新稀释。跨多个智能体领域和模型架构的实验表明,RAM不仅超越了现有融合基线方法,更能释放智能体间的协同潜力,实现优于各领域专用智能体的性能表现。

0
下载
关闭预览

相关内容

大语言模型智能体强化学习:全景综述
专知会员服务
43+阅读 · 2025年12月18日
面向大语言模型的智能体化强化学习图景:综述
专知会员服务
55+阅读 · 2025年9月3日
面向视觉的强化学习综述
专知会员服务
21+阅读 · 2025年8月12日
《改进单智能体和多智能体深度强化学习方法》219页
专知会员服务
61+阅读 · 2025年2月14日
自动驾驶中的多智能体强化学习综述
专知会员服务
47+阅读 · 2024年8月20日
《多智能体强化学习策略优化算法设计》226页
专知会员服务
63+阅读 · 2024年6月9日
基于模型的强化学习综述
专知会员服务
149+阅读 · 2022年7月13日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
关于强化学习(附代码,练习和解答)
深度学习
37+阅读 · 2018年1月30日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
22+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2月4日
Exploring Reasoning Reward Model for Agents
VIP会员
相关VIP内容
大语言模型智能体强化学习:全景综述
专知会员服务
43+阅读 · 2025年12月18日
面向大语言模型的智能体化强化学习图景:综述
专知会员服务
55+阅读 · 2025年9月3日
面向视觉的强化学习综述
专知会员服务
21+阅读 · 2025年8月12日
《改进单智能体和多智能体深度强化学习方法》219页
专知会员服务
61+阅读 · 2025年2月14日
自动驾驶中的多智能体强化学习综述
专知会员服务
47+阅读 · 2024年8月20日
《多智能体强化学习策略优化算法设计》226页
专知会员服务
63+阅读 · 2024年6月9日
基于模型的强化学习综述
专知会员服务
149+阅读 · 2022年7月13日
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
22+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员