We present CRM (Multi-Agent Collaborative Reward Model), a framework that replaces a single black-box reward model with a coordinated team of specialist evaluators to improve robustness and interpretability in RLHF. Conventional reward models struggle to jointly optimize multiple, sometimes conflicting, preference dimensions (e.g., factuality, helpfulness, safety) and offer limited transparency into why a score is assigned. CRM addresses these issues by decomposing preference evaluation into domain-specific agents that each produce partial signals, alongside global evaluators such as ranker-based and embedding-similarity rewards. A centralized aggregator fuses these signals at each timestep, balancing factors like step-wise correctness, multi-agent agreement, and repetition penalties, yielding a single training reward compatible with standard RL pipelines. The policy is optimized with advantage-based updates (e.g., GAE), while a value model regresses to the aggregated reward, enabling multi-perspective reward shaping without requiring additional human annotations beyond those used to train the evaluators. To support training and assessment, we introduce rewardBench, a benchmark and training suite aligned with the collaborative structure of CRM. Together, CRM and rewardBench provide a practical, modular path to more transparent reward modeling and more stable optimization.


翻译:我们提出了CRM(多智能体协作奖励模型),该框架通过一个协调的专家评估器团队替代单一的黑盒奖励模型,以提高RLHF的鲁棒性和可解释性。传统奖励模型难以同时优化多个可能相互冲突的偏好维度(如事实性、帮助性、安全性),且对评分依据的透明度有限。CRM通过将偏好评估分解为特定领域的智能体来解决这些问题,每个智能体产生部分信号,同时结合基于排序器和嵌入相似度奖励等全局评估器。中央聚合器在每个时间步融合这些信号,平衡逐步正确性、多智能体一致性和重复惩罚等因素,最终生成与标准RL流程兼容的单一训练奖励。策略通过基于优势的更新(如GAE)进行优化,而价值模型则回归到聚合奖励,从而在不需额外人工标注的情况下实现多视角奖励塑形(仅需训练评估器时使用的标注)。为支持训练和评估,我们引入了rewardBench——一个与CRM协作结构对齐的基准测试和训练套件。CRM与rewardBench共同为更透明的奖励建模和更稳定的优化提供了实用化、模块化的实现路径。

0
下载
关闭预览

相关内容

深度强化学习中的奖励模型:综述
专知会员服务
29+阅读 · 2025年6月20日
【博士论文】强化学习智能体的奖励函数设计
专知会员服务
48+阅读 · 2025年4月8日
《改进单智能体和多智能体深度强化学习方法》219页
专知会员服务
61+阅读 · 2025年2月14日
多智能体深度强化学习研究进展
专知会员服务
76+阅读 · 2024年7月17日
《多智能体强化学习策略优化算法设计》226页
专知会员服务
63+阅读 · 2024年6月9日
基于多智能体强化学习的协同目标分配
专知会员服务
136+阅读 · 2023年9月5日
「基于通信的多智能体强化学习」 进展综述
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
15+阅读 · 2020年9月9日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
18+阅读 · 2020年9月1日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Exploring Reasoning Reward Model for Agents
VIP会员
相关资讯
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员