MAESTRO：面向测试、可靠性与可观测性的多智能体评估套件 (MAESTRO: Multi-Agent Evaluation Suite for Testing, Reliability, and Observability) - 专知论文

会员服务 ·

0

系统 · 可观测性 · 智能体 · 工具 · 智能体系统 ·

MAESTRO: Multi-Agent Evaluation Suite for Testing, Reliability, and Observability

翻译：MAESTRO：面向测试、可靠性与可观测性的多智能体评估套件

Tie Ma,Yixi Chen,Vaastav Anand,Alessandro Cornacchia,Amândio R. Faustino,Guanheng Liu,Shan Zhang,Hongbin Luo,Suhaib A. Fahmy,Zafar A. Qazi,Marco Canini

We present MAESTRO, an evaluation suite for the testing, reliability, and observability of LLM-based MAS. MAESTRO standardizes MAS configuration and execution through a unified interface, supports integrating both native and third-party MAS via a repository of examples and lightweight adapters, and exports framework-agnostic execution traces together with system-level signals (e.g., latency, cost, and failures). We instantiate MAESTRO with 12 representative MAS spanning popular agentic frameworks and interaction patterns, and conduct controlled experiments across repeated runs, backend models, and tool configurations. Our case studies show that MAS executions can be structurally stable yet temporally variable, leading to substantial run-to-run variance in performance and reliability. We further find that MAS architecture is the dominant driver of resource profiles, reproducibility, and cost-latency-accuracy trade-off, often outweighing changes in backend models or tool settings. Overall, MAESTRO enables systematic evaluation and provides empirical guidance for designing and optimizing agentic systems.

翻译：我们提出MAESTRO，一个用于评估基于大语言模型的多智能体系统（MAS）的测试、可靠性与可观测性的评估套件。MAESTRO通过统一接口标准化MAS的配置与执行，支持通过示例库与轻量适配器集成原生及第三方MAS，并导出与框架无关的执行轨迹及系统级信号（如延迟、成本与故障）。我们基于12个涵盖主流智能体框架与交互模式的代表性MAS对MAESTRO进行实例化，并在重复运行、后端模型及工具配置等维度开展受控实验。案例研究表明，MAS执行过程可能呈现结构稳定但时序波动的特征，导致性能与可靠性存在显著的运行间差异。我们进一步发现，MAS架构是资源分布、可复现性及成本-延迟-准确度权衡的主导因素，其影响通常超过后端模型或工具设置的变更。总体而言，MAESTRO为智能体系统的设计与优化提供了系统化评估方法与实证指导。

0

相关内容

多智能体通信：多智能体强化学习到涌现语言和大语言模型的综述

多智能体通信：多智能体强化学习到涌现语言和大语言模型的综述

专知会员服务

11+阅读 · 2月13日

《多智能体大语言模型系统的可靠决策研究》

《多智能体大语言模型系统的可靠决策研究》

专知会员服务

31+阅读 · 2月2日

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

操作系统智能体：基于多模态大模型（MLLM）的通用计算设备智能体综述

操作系统智能体：基于多模态大模型（MLLM）的通用计算设备智能体综述

专知会员服务

31+阅读 · 2025年8月7日

《多智能体系统的神经协调：多领域任务环境中基于深度学习的智能体最优选择框架》

《多智能体系统的神经协调：多领域任务环境中基于深度学习的智能体最优选择框架》

专知会员服务

25+阅读 · 2025年5月7日

面向大模型多智能体系统的多维评估方法

面向大模型多智能体系统的多维评估方法

专知会员服务

34+阅读 · 2025年4月15日

《作战智能体：历史战役的多模态动态仿真以补充历史分析》大型视觉语言模型（VLM）和多智能体系统（MAS）的详细仿真演示系统

《作战智能体：历史战役的多模态动态仿真以补充历史分析》大型视觉语言模型（VLM）和多智能体系统（MAS）的详细仿真演示系统

专知会员服务

90+阅读 · 2024年5月24日

重磅!《“可信AI”评估体系产品手册》正式发布,24页pdf

重磅!《“可信AI”评估体系产品手册》正式发布,24页pdf

专知会员服务

76+阅读 · 2023年7月4日

同济等最新《多智能体强化学习》综述，43页pdf详述MARL方法、应用、展望与挑战

同济等最新《多智能体强化学习》综述，43页pdf详述MARL方法、应用、展望与挑战

专知会员服务

64+阅读 · 2023年5月19日

北约新军用装备介绍《Mayflower自主无人驾驶舰船》，集成了AI、传感等多项高新技术，涵盖装备结构涉及、制造、运行等方面

北约新军用装备介绍《Mayflower自主无人驾驶舰船》，集成了AI、传感等多项高新技术，涵盖装备结构涉及、制造、运行等方面

专知会员服务

26+阅读 · 2022年4月9日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

MSRA开源基于注意力机制的全新推荐模型，融合用户长短期偏好

MSRA开源基于注意力机制的全新推荐模型，融合用户长短期偏好

AI前线

15+阅读 · 2019年9月22日

基于MaaS的智慧交通体系

基于MaaS的智慧交通体系

智能交通技术

11+阅读 · 2019年6月13日

出行即服务（MAAS）框架

出行即服务（MAAS）框架

智能交通技术

53+阅读 · 2019年5月22日

爱奇艺基于AI的移动端自动化测试框架的设计

爱奇艺基于AI的移动端自动化测试框架的设计

前端之巅

18+阅读 · 2019年2月27日

MAAS：出行服务的颠覆者

MAAS：出行服务的颠覆者

智能交通技术

16+阅读 · 2018年12月27日

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

AI研习社

10+阅读 · 2018年3月6日

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

全球人工智能

15+阅读 · 2018年2月8日

【论文推荐】最新5篇目标检测相关论文——显著目标检测、弱监督One-Shot检测、多框检测器、携带物体检测、假彩色图像检测

【论文推荐】最新5篇目标检测相关论文——显著目标检测、弱监督One-Shot检测、多框检测器、携带物体检测、假彩色图像检测

专知

74+阅读 · 2018年1月16日

基于概率计算的大规模MIMO检测方法

国家自然科学基金

1+阅读 · 2015年12月31日

多级可控组装模拟生物体系的功能

国家自然科学基金

0+阅读 · 2015年12月31日

多输入-多输出网络量化系统的分析与综合研究

国家自然科学基金

0+阅读 · 2015年12月31日

Massive MIMO 系统中接收端低复杂度检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

大规模MIMO检测的理论性能分析和算法设计

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态增益非线性干扰观测器的多智能体系统协调跟踪和干扰抑制

国家自然科学基金

1+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

支持多信息融合的装备体系作战效能评估方法研究

国家自然科学基金

36+阅读 · 2008年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

MAS-ProVe: Understanding the Process Verification of Multi-Agent Systems

Arxiv

0+阅读 · 2月3日

MAS-Shield: A Defense Framework for Secure and Efficient LLM MAS

Arxiv

0+阅读 · 2月2日

MATA: A Trainable Hierarchical Automaton System for Multi-Agent Visual Reasoning

Arxiv

0+阅读 · 1月27日

MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks

Arxiv

0+阅读 · 1月21日

MASCOT: Towards Multi-Agent Socio-Collaborative Companion Systems

Arxiv

0+阅读 · 1月20日

DR-Arena: an Automated Evaluation Framework for Deep Research Agents

Arxiv

0+阅读 · 1月15日

SC-MAS: Constructing Cost-Efficient Multi-Agent Systems with Edge-Level Heterogeneous Collaboration

Arxiv

0+阅读 · 1月14日

MACRO-LLM: LLM-Empowered Multi-Agent Collaborative Reasoning under Spatiotemporal Partial Observability

Arxiv

0+阅读 · 1月14日

LLM-Enabled Multi-Agent Systems: Empirical Evaluation and Insights into Emerging Design Patterns & Paradigms

Arxiv

0+阅读 · 1月6日

The Rise of Agentic Testing: Multi-Agent Systems for Robust Software Quality Assurance

Arxiv

0+阅读 · 1月5日

VIP会员

文章信息

相关主题

智能体系统

相关VIP内容

多智能体通信：多智能体强化学习到涌现语言和大语言模型的综述

多智能体通信：多智能体强化学习到涌现语言和大语言模型的综述

专知会员服务

11+阅读 · 2月13日

《多智能体大语言模型系统的可靠决策研究》

《多智能体大语言模型系统的可靠决策研究》

专知会员服务

31+阅读 · 2月2日

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

操作系统智能体：基于多模态大模型（MLLM）的通用计算设备智能体综述

操作系统智能体：基于多模态大模型（MLLM）的通用计算设备智能体综述

专知会员服务

31+阅读 · 2025年8月7日

《多智能体系统的神经协调：多领域任务环境中基于深度学习的智能体最优选择框架》

《多智能体系统的神经协调：多领域任务环境中基于深度学习的智能体最优选择框架》

专知会员服务

25+阅读 · 2025年5月7日

面向大模型多智能体系统的多维评估方法

面向大模型多智能体系统的多维评估方法

专知会员服务

34+阅读 · 2025年4月15日

《作战智能体：历史战役的多模态动态仿真以补充历史分析》大型视觉语言模型（VLM）和多智能体系统（MAS）的详细仿真演示系统

《作战智能体：历史战役的多模态动态仿真以补充历史分析》大型视觉语言模型（VLM）和多智能体系统（MAS）的详细仿真演示系统

专知会员服务

90+阅读 · 2024年5月24日

重磅!《“可信AI”评估体系产品手册》正式发布,24页pdf

重磅!《“可信AI”评估体系产品手册》正式发布,24页pdf

专知会员服务

76+阅读 · 2023年7月4日

同济等最新《多智能体强化学习》综述，43页pdf详述MARL方法、应用、展望与挑战

同济等最新《多智能体强化学习》综述，43页pdf详述MARL方法、应用、展望与挑战

专知会员服务

64+阅读 · 2023年5月19日

北约新军用装备介绍《Mayflower自主无人驾驶舰船》，集成了AI、传感等多项高新技术，涵盖装备结构涉及、制造、运行等方面

北约新军用装备介绍《Mayflower自主无人驾驶舰船》，集成了AI、传感等多项高新技术，涵盖装备结构涉及、制造、运行等方面

专知会员服务

26+阅读 · 2022年4月9日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

MSRA开源基于注意力机制的全新推荐模型，融合用户长短期偏好

MSRA开源基于注意力机制的全新推荐模型，融合用户长短期偏好

AI前线

15+阅读 · 2019年9月22日

基于MaaS的智慧交通体系

基于MaaS的智慧交通体系

智能交通技术

11+阅读 · 2019年6月13日

出行即服务（MAAS）框架

出行即服务（MAAS）框架

智能交通技术

53+阅读 · 2019年5月22日

爱奇艺基于AI的移动端自动化测试框架的设计

爱奇艺基于AI的移动端自动化测试框架的设计

前端之巅

18+阅读 · 2019年2月27日

MAAS：出行服务的颠覆者

MAAS：出行服务的颠覆者

智能交通技术

16+阅读 · 2018年12月27日

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

AI研习社

10+阅读 · 2018年3月6日

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

全球人工智能

15+阅读 · 2018年2月8日

【论文推荐】最新5篇目标检测相关论文——显著目标检测、弱监督One-Shot检测、多框检测器、携带物体检测、假彩色图像检测

【论文推荐】最新5篇目标检测相关论文——显著目标检测、弱监督One-Shot检测、多框检测器、携带物体检测、假彩色图像检测

专知

74+阅读 · 2018年1月16日

相关论文

MAS-ProVe: Understanding the Process Verification of Multi-Agent Systems

Arxiv

0+阅读 · 2月3日

MAS-Shield: A Defense Framework for Secure and Efficient LLM MAS

Arxiv

0+阅读 · 2月2日

MATA: A Trainable Hierarchical Automaton System for Multi-Agent Visual Reasoning

Arxiv

0+阅读 · 1月27日

MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks

Arxiv

0+阅读 · 1月21日

MASCOT: Towards Multi-Agent Socio-Collaborative Companion Systems

Arxiv

0+阅读 · 1月20日

DR-Arena: an Automated Evaluation Framework for Deep Research Agents

Arxiv

0+阅读 · 1月15日

SC-MAS: Constructing Cost-Efficient Multi-Agent Systems with Edge-Level Heterogeneous Collaboration

Arxiv

0+阅读 · 1月14日

MACRO-LLM: LLM-Empowered Multi-Agent Collaborative Reasoning under Spatiotemporal Partial Observability

Arxiv

0+阅读 · 1月14日

LLM-Enabled Multi-Agent Systems: Empirical Evaluation and Insights into Emerging Design Patterns & Paradigms

Arxiv

0+阅读 · 1月6日

The Rise of Agentic Testing: Multi-Agent Systems for Robust Software Quality Assurance

Arxiv

0+阅读 · 1月5日

相关基金

基于概率计算的大规模MIMO检测方法

国家自然科学基金

1+阅读 · 2015年12月31日

多级可控组装模拟生物体系的功能

国家自然科学基金

0+阅读 · 2015年12月31日

多输入-多输出网络量化系统的分析与综合研究

国家自然科学基金

0+阅读 · 2015年12月31日

Massive MIMO 系统中接收端低复杂度检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

大规模MIMO检测的理论性能分析和算法设计

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态增益非线性干扰观测器的多智能体系统协调跟踪和干扰抑制

国家自然科学基金

1+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

支持多信息融合的装备体系作战效能评估方法研究

国家自然科学基金

36+阅读 · 2008年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员