MASPRM：多智能体系统过程奖励模型 (MASPRM: Multi-Agent System Process Reward Model) - 专知论文

会员服务 ·

0

系统 · 智能体系统 · 搜索 · 多智能体系统 · 奖励模型 ·

MASPRM: Multi-Agent System Process Reward Model

翻译：MASPRM：多智能体系统过程奖励模型

Milad Yazdani,Mahdi Mostajabdaveh,Zirui Zhou,Ying Xiong

Practical deployment of multi-agent systems (MAS) demands strong performance at test time, motivating methods that guide search during inference and selectively spend compute to improve quality. We present the Multi-Agent System Process Reward Model (MASPRM). It assigns values to partial inter-agent transcripts for each action and each agent, and acts as a controller during inference. MASPRM is trained from multi-agent Monte Carlo Tree Search (MCTS) rollouts labeled only with terminal outcome rewards, without requiring human step-level annotations, by propagating returns to local targets. During inference, MASPRM guides step-level beam search (SBS) and MCTS, focusing computation on promising branches and pruning unpromising ones. We train and test MASPRM across different tasks and domains, using GSM8K, MATH, MMLU, and LogiQA as benchmarks. Averaged across these benchmarks, MASPRM improves Hit@1 over policy likelihood by up to $+13.4$ points and improves ranking quality, reducing Hit@1$->$Hit@5 gaps by up to $10.3$ points. MASPRM complements inference-time search by scoring intermediate routed transcripts to guide rollouts in MAS with fixed schedules. Code: https://github.com/milad1378yz/MASPRM

翻译：多智能体系统（MAS）的实际部署要求在测试时具备强大性能，这推动了在推理过程中引导搜索并选择性分配计算资源以提升质量的方法。本文提出多智能体系统过程奖励模型（MASPRM）。该模型为每个智能体的每个动作分配部分交互记录的价值，并在推理过程中充当控制器。MASPRM通过将终端结果奖励传播至局部目标进行训练，其训练数据来源于仅标注终端奖励的多智能体蒙特卡洛树搜索（MCTS）推演，无需人工步骤级标注。在推理阶段，MASPRM引导步骤级束搜索（SBS）和MCTS，将计算资源集中于有潜力的分支并剪除无前景的分支。我们在不同任务和领域中训练并测试MASPRM，使用GSM8K、MATH、MMLU和LogiQA作为基准测试集。在这些基准测试的平均结果中，MASPRM将Hit@1指标较策略似然提升了最高$+13.4$分，并改善了排序质量，将Hit@1$->$Hit@5差距降低了最高$10.3$分。MASPRM通过对中间路由记录进行评分来引导固定调度MAS中的推演，从而对推理时搜索形成补充。代码：https://github.com/milad1378yz/MASPRM

0

相关内容

多智能体通信：多智能体强化学习到涌现语言和大语言模型的综述

多智能体通信：多智能体强化学习到涌现语言和大语言模型的综述

专知会员服务

11+阅读 · 2月13日

《多智能体大语言模型系统的可靠决策研究》

《多智能体大语言模型系统的可靠决策研究》

专知会员服务

31+阅读 · 2月2日

迈向智能体系统规模化的科学

迈向智能体系统规模化的科学

专知会员服务

20+阅读 · 2025年12月12日

《多智能体系统的神经协调：多领域任务环境中基于深度学习的智能体最优选择框架》

《多智能体系统的神经协调：多领域任务环境中基于深度学习的智能体最优选择框架》

专知会员服务

25+阅读 · 2025年5月7日

面向大模型多智能体系统的多维评估方法

面向大模型多智能体系统的多维评估方法

专知会员服务

34+阅读 · 2025年4月15日

多智能体协作机制：大语言模型综述

多智能体协作机制：大语言模型综述

专知会员服务

67+阅读 · 2025年3月4日

《作战智能体：历史战役的多模态动态仿真以补充历史分析》大型视觉语言模型（VLM）和多智能体系统（MAS）的详细仿真演示系统

《作战智能体：历史战役的多模态动态仿真以补充历史分析》大型视觉语言模型（VLM）和多智能体系统（MAS）的详细仿真演示系统

专知会员服务

90+阅读 · 2024年5月24日

《多智能体搜索和任务分配的数学建模》92页论文

《多智能体搜索和任务分配的数学建模》92页论文

专知会员服务

115+阅读 · 2023年10月24日

《多智能体任务规划》2022博士论文

《多智能体任务规划》2022博士论文

专知会员服务

285+阅读 · 2022年11月20日

推荐！中文版《作战战略机动的多智能体协作强化学习研究综述》美国陆军研究实验室最新33页研究报告

推荐！中文版《作战战略机动的多智能体协作强化学习研究综述》美国陆军研究实验室最新33页研究报告

专知会员服务

312+阅读 · 2022年6月23日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

《综述：多智能体系统（MAS）中的任务分配技术》美国空军项目支持

《综述：多智能体系统（MAS）中的任务分配技术》美国空军项目支持

专知

52+阅读 · 2022年10月6日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知

58+阅读 · 2022年4月30日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

15+阅读 · 2020年9月9日

【CIKM2020】多模态知识图谱推荐系统，Multi-modal KG for RS

【CIKM2020】多模态知识图谱推荐系统，Multi-modal KG for RS

专知

33+阅读 · 2020年8月24日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

基于MaaS的智慧交通体系

基于MaaS的智慧交通体系

智能交通技术

11+阅读 · 2019年6月13日

基于模型系统的系统设计

基于模型系统的系统设计

科技导报

10+阅读 · 2019年4月25日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

受扰多智能体系统的分布式主动抗干扰协调控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

随机环境下多个体系统集体行为分析、调控与优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态增益非线性干扰观测器的多智能体系统协调跟踪和干扰抑制

国家自然科学基金

1+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

多智能体系统有限时间一致性的自适应控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

MAS-on-the-Fly: Dynamic Adaptation of LLM-based Multi-Agent Systems at Test Time

Arxiv

0+阅读 · 2月14日

Scaling Multiagent Systems with Process Rewards

Arxiv

0+阅读 · 2月4日

MAS-ProVe: Understanding the Process Verification of Multi-Agent Systems

Arxiv

0+阅读 · 2月3日

LatentMem: Customizing Latent Memory for Multi-Agent Systems

Arxiv

0+阅读 · 2月3日

Scaling Multiagent Systems with Process Rewards

Arxiv

0+阅读 · 1月30日

Stronger-MAS: Multi-Agent Reinforcement Learning for Collaborative LLMs

Arxiv

0+阅读 · 1月29日

MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks

Arxiv

0+阅读 · 1月21日

MASCOT: Towards Multi-Agent Socio-Collaborative Companion Systems

Arxiv

0+阅读 · 1月20日

OFA-MAS: One-for-All Multi-Agent System Topology Design based on Mixture-of-Experts Graph Generative Models

Arxiv

0+阅读 · 1月19日

Learning Latency-Aware Orchestration for Parallel Multi-Agent Systems

Arxiv

0+阅读 · 1月15日

VIP会员

文章信息

相关主题

智能体系统

多智能体系统

相关VIP内容

多智能体通信：多智能体强化学习到涌现语言和大语言模型的综述

多智能体通信：多智能体强化学习到涌现语言和大语言模型的综述

专知会员服务

11+阅读 · 2月13日

《多智能体大语言模型系统的可靠决策研究》

《多智能体大语言模型系统的可靠决策研究》

专知会员服务

31+阅读 · 2月2日

迈向智能体系统规模化的科学

迈向智能体系统规模化的科学

专知会员服务

20+阅读 · 2025年12月12日

《多智能体系统的神经协调：多领域任务环境中基于深度学习的智能体最优选择框架》

《多智能体系统的神经协调：多领域任务环境中基于深度学习的智能体最优选择框架》

专知会员服务

25+阅读 · 2025年5月7日

面向大模型多智能体系统的多维评估方法

面向大模型多智能体系统的多维评估方法

专知会员服务

34+阅读 · 2025年4月15日

多智能体协作机制：大语言模型综述

多智能体协作机制：大语言模型综述

专知会员服务

67+阅读 · 2025年3月4日

《作战智能体：历史战役的多模态动态仿真以补充历史分析》大型视觉语言模型（VLM）和多智能体系统（MAS）的详细仿真演示系统

《作战智能体：历史战役的多模态动态仿真以补充历史分析》大型视觉语言模型（VLM）和多智能体系统（MAS）的详细仿真演示系统

专知会员服务

90+阅读 · 2024年5月24日

《多智能体搜索和任务分配的数学建模》92页论文

《多智能体搜索和任务分配的数学建模》92页论文

专知会员服务

115+阅读 · 2023年10月24日

《多智能体任务规划》2022博士论文

《多智能体任务规划》2022博士论文

专知会员服务

285+阅读 · 2022年11月20日

推荐！中文版《作战战略机动的多智能体协作强化学习研究综述》美国陆军研究实验室最新33页研究报告

推荐！中文版《作战战略机动的多智能体协作强化学习研究综述》美国陆军研究实验室最新33页研究报告

专知会员服务

312+阅读 · 2022年6月23日

热门VIP内容

开通专知VIP会员享更多权益服务

《可信人工智能赋能系统的支柱》

《从经典神经网络到不确定性下的拓扑神经网络：军事应用》2026最新40页报告

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

《人工智能：对战略与力量的影响》slides

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

《综述：多智能体系统（MAS）中的任务分配技术》美国空军项目支持

《综述：多智能体系统（MAS）中的任务分配技术》美国空军项目支持

专知

52+阅读 · 2022年10月6日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知

58+阅读 · 2022年4月30日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

15+阅读 · 2020年9月9日

【CIKM2020】多模态知识图谱推荐系统，Multi-modal KG for RS

【CIKM2020】多模态知识图谱推荐系统，Multi-modal KG for RS

专知

33+阅读 · 2020年8月24日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

基于MaaS的智慧交通体系

基于MaaS的智慧交通体系

智能交通技术

11+阅读 · 2019年6月13日

基于模型系统的系统设计

基于模型系统的系统设计

科技导报

10+阅读 · 2019年4月25日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

相关论文

MAS-on-the-Fly: Dynamic Adaptation of LLM-based Multi-Agent Systems at Test Time

Arxiv

0+阅读 · 2月14日

Scaling Multiagent Systems with Process Rewards

Arxiv

0+阅读 · 2月4日

MAS-ProVe: Understanding the Process Verification of Multi-Agent Systems

Arxiv

0+阅读 · 2月3日

LatentMem: Customizing Latent Memory for Multi-Agent Systems

Arxiv

0+阅读 · 2月3日

Scaling Multiagent Systems with Process Rewards

Arxiv

0+阅读 · 1月30日

Stronger-MAS: Multi-Agent Reinforcement Learning for Collaborative LLMs

Arxiv

0+阅读 · 1月29日

MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks

Arxiv

0+阅读 · 1月21日

MASCOT: Towards Multi-Agent Socio-Collaborative Companion Systems

Arxiv

0+阅读 · 1月20日

OFA-MAS: One-for-All Multi-Agent System Topology Design based on Mixture-of-Experts Graph Generative Models

Arxiv

0+阅读 · 1月19日

Learning Latency-Aware Orchestration for Parallel Multi-Agent Systems

Arxiv

0+阅读 · 1月15日

相关基金

受扰多智能体系统的分布式主动抗干扰协调控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

随机环境下多个体系统集体行为分析、调控与优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态增益非线性干扰观测器的多智能体系统协调跟踪和干扰抑制

国家自然科学基金

1+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

多智能体系统有限时间一致性的自适应控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员