Team of Thoughts: Efficient Test-time Scaling of Agentic Systems through Orchestrated Tool Calling - 专知论文

会员服务 ·

0

工具 · 系统 · 同质 · 智能体 · 代理系统 ·

Team of Thoughts: Efficient Test-time Scaling of Agentic Systems through Orchestrated Tool Calling

翻译：思维团队：通过编排工具调用实现代理系统的高效测试时扩展

Jeffrey T. H. Wong,Zixi Zhang,Junyi Liu,Yiren Zhao

from arxiv, 8 pages

Existing Multi-Agent Systems (MAS) typically rely on static, homogeneous model configurations, limiting their ability to exploit the distinct strengths of differently post-trained models. To address this, we introduce Team-of-Thoughts, a novel MAS architecture that leverages the complementary capabilities of heterogeneous agents via an orchestrator-tool paradigm. Our framework introduces two key mechanisms to optimize performance: (1) an orchestrator calibration scheme that identifies models with superior coordination capabilities, and (2) a self-assessment protocol where tool agents profile their own domain expertise to account for variations in post-training skills. During inference, the orchestrator dynamically activates the most suitable tool agents based on these proficiency profiles. Experiments on five reasoning and code generation benchmarks show that Team-of-Thoughts delivers consistently superior task performance. Notably, on AIME24 and LiveCodeBench, our approach achieves accuracies of 96.67% and 72.53%, respectively, substantially outperforming homogeneous role-play baselines, which score 80% and 65.93%.

翻译：现有的多智能体系统通常依赖于静态、同质的模型配置，这限制了其利用不同后训练模型独特优势的能力。为解决这一问题，我们提出了思维团队，一种新颖的多智能体系统架构，通过编排器-工具范式利用异构智能体的互补能力。我们的框架引入了两个关键机制以优化性能：（1）一种编排器校准方案，用于识别具有卓越协调能力的模型；（2）一种自评估协议，工具智能体通过该协议分析其自身领域专长，以考虑后训练技能差异。在推理过程中，编排器根据这些能力配置文件动态激活最合适的工具智能体。在五个推理和代码生成基准测试上的实验表明，思维团队始终提供卓越的任务性能。值得注意的是，在AIME24和LiveCodeBench上，我们的方法分别实现了96.67%和72.53%的准确率，显著优于同质角色扮演基线（其得分分别为80%和65.93%）。

0

相关内容

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

25+阅读 · 3月8日

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

专知会员服务

16+阅读 · 2月20日

面向大模型多智能体系统的多维评估方法

面向大模型多智能体系统的多维评估方法

专知会员服务

34+阅读 · 2025年4月15日

《多机器人系统协作效能提升：基于模型与数据驱动的具身智能方法》339页

《多机器人系统协作效能提升：基于模型与数据驱动的具身智能方法》339页

专知会员服务

60+阅读 · 2025年4月6日

人机协作《编队系统中不安全协作控制的系统理论分析》

人机协作《编队系统中不安全协作控制的系统理论分析》

专知会员服务

23+阅读 · 2024年11月23日

《基于策略的多智能体多团队系统框架》319页

《基于策略的多智能体多团队系统框架》319页

专知会员服务

72+阅读 · 2024年5月1日

《多智能体系统的迭代规划：在能源感知无人机-无人地面车辆合作任务地点分配中的应用》

《多智能体系统的迭代规划：在能源感知无人机-无人地面车辆合作任务地点分配中的应用》

专知会员服务

38+阅读 · 2024年3月24日

《针对高性能协作跟踪和编队目标的分布式迭代学习控制》169页论文

《针对高性能协作跟踪和编队目标的分布式迭代学习控制》169页论文

专知会员服务

28+阅读 · 2024年3月23日

《异构多智能体系统在联合武器中的应用》美国空军2022最新106页论文

《异构多智能体系统在联合武器中的应用》美国空军2022最新106页论文

专知会员服务

176+阅读 · 2022年11月15日

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

专知会员服务

26+阅读 · 2019年10月3日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

常用的模型集成方法介绍：bagging、boosting 、stacking

常用的模型集成方法介绍：bagging、boosting 、stacking

机器之心

14+阅读 · 2019年5月15日

基于车路协同的群体智能协同

基于车路协同的群体智能协同

智能交通技术

10+阅读 · 2019年1月23日

DeepMind：用PopArt进行多任务深度强化学习

DeepMind：用PopArt进行多任务深度强化学习

论智

30+阅读 · 2018年9月14日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

【干货】谷歌一个模型解决所有问题《One Model to Learn Them All》论文深度解读

【干货】谷歌一个模型解决所有问题《One Model to Learn Them All》论文深度解读

专知

10+阅读 · 2018年1月14日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

支持新产品快速设计的复杂产品系统功能模块化方法

国家自然科学基金

1+阅读 · 2015年12月31日

三维空间基于角度测量的多机器人系统协同定位与编队控制

国家自然科学基金

11+阅读 · 2015年12月31日

基于演化博弈的多智能体环形编队的理论与实验研究

国家自然科学基金

23+阅读 · 2015年12月31日

随机环境下多个体系统集体行为分析、调控与优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态增益非线性干扰观测器的多智能体系统协调跟踪和干扰抑制

国家自然科学基金

1+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks

Arxiv

0+阅读 · 3月9日

Agent Tools Orchestration Leaks More: Dataset, Benchmark, and Mitigation

Arxiv

0+阅读 · 3月6日

AgentDropoutV2: Optimizing Information Flow in Multi-Agent Systems via Test-Time Rectify-or-Reject Pruning

Arxiv

0+阅读 · 2月26日

AdaptOrch: Task-Adaptive Multi-Agent Orchestration in the Era of LLM Performance Convergence

Arxiv

0+阅读 · 2月18日

Multi-Agent Teams Hold Experts Back

Arxiv

0+阅读 · 2月9日

AgentXRay: White-Boxing Agentic Systems via Workflow Reconstruction

Arxiv

0+阅读 · 2月6日

Think-Augmented Function Calling: Improving LLM Parameter Accuracy Through Embedded Reasoning

Arxiv

0+阅读 · 2月6日

Multi-Agent Pathfinding Under Team-Connected Communication Constraint via Adaptive Path Expansion and Dynamic Leading

Arxiv

0+阅读 · 2月3日

Towards AI as Colleagues: Multi-Agent System Improves Structured Ideation Processes

Arxiv

0+阅读 · 1月31日

Multi-Agent Design: Optimizing Agents with Better Prompts and Topologies

Arxiv

0+阅读 · 1月31日

VIP会员

文章信息

相关主题

最新内容

《新空中力量概念：来自敏捷战斗运用的启示》2026最新50页报告

《新空中力量概念：来自敏捷战斗运用的启示》2026最新50页报告

专知会员服务

1+阅读 · 15分钟前

《无人水面艇文献综述与结构设计》135页

《无人水面艇文献综述与结构设计》135页

专知会员服务

10+阅读 · 6月13日

《自主蜂群系统的战略架构：多域一体化、抗毁韧性及海上作战框架（2025—2035）》46页报告

《自主蜂群系统的战略架构：多域一体化、抗毁韧性及海上作战框架（2025—2035）》46页报告

专知会员服务

9+阅读 · 6月13日

ICML 2026｜MEMOPILOT：用强化学习训练会进化的智能体记忆

ICML 2026｜MEMOPILOT：用强化学习训练会进化的智能体记忆

专知会员服务

2+阅读 · 6月13日

智能体时间序列系统全景综述：架构、可靠性与研究前沿

智能体时间序列系统全景综述：架构、可靠性与研究前沿

专知会员服务

10+阅读 · 6月13日

AUTOLAB：86亿Token实测前沿模型的长程自动科研能力

AUTOLAB：86亿Token实测前沿模型的长程自动科研能力

专知会员服务

8+阅读 · 6月12日

CVPR 2026趋势报告：视觉AI正在走向世界模型与物理智能，165页ppt

CVPR 2026趋势报告：视觉AI正在走向世界模型与物理智能，165页ppt

专知会员服务

22+阅读 · 6月12日

乌克兰战场背后的新武器

乌克兰战场背后的新武器

专知会员服务

7+阅读 · 6月12日

《信任但需验证：军事决策背景下的大型语言模型品格、能力与控制》2026最新59页报告

《信任但需验证：军事决策背景下的大型语言模型品格、能力与控制》2026最新59页报告

专知会员服务

12+阅读 · 6月12日

未来战争：乌克兰2026年反攻中的作战经验教训 - 新军事战略之“后勤封锁”（中文下载）

未来战争：乌克兰2026年反攻中的作战经验教训 - 新军事战略之“后勤封锁”（中文下载）

专知会员服务

9+阅读 · 6月12日

基于博弈论的陆军人机协同（长文报告）

基于博弈论的陆军人机协同（长文报告）

专知会员服务

13+阅读 · 6月12日

《天气对反无人机系统“探测-跟踪-识别-失效”链路的影响：俄乌战场分析》

《天气对反无人机系统“探测-跟踪-识别-失效”链路的影响：俄乌战场分析》

专知会员服务

12+阅读 · 6月12日

美国陆军航空兵：以愿景引领转型

美国陆军航空兵：以愿景引领转型

专知会员服务

7+阅读 · 6月12日

CVPR 2026教程｜扩散模型原理：连续、离散与实时生成

CVPR 2026教程｜扩散模型原理：连续、离散与实时生成

专知会员服务

7+阅读 · 6月11日

重磅综述｜大模型智能体环境工程：建模、合成、评估与协同演化

重磅综述｜大模型智能体环境工程：建模、合成、评估与协同演化

专知会员服务

10+阅读 · 6月11日

相关VIP内容

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

25+阅读 · 3月8日

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

专知会员服务

16+阅读 · 2月20日

面向大模型多智能体系统的多维评估方法

面向大模型多智能体系统的多维评估方法

专知会员服务

34+阅读 · 2025年4月15日

《多机器人系统协作效能提升：基于模型与数据驱动的具身智能方法》339页

《多机器人系统协作效能提升：基于模型与数据驱动的具身智能方法》339页

专知会员服务

60+阅读 · 2025年4月6日

人机协作《编队系统中不安全协作控制的系统理论分析》

人机协作《编队系统中不安全协作控制的系统理论分析》

专知会员服务

23+阅读 · 2024年11月23日

《基于策略的多智能体多团队系统框架》319页

《基于策略的多智能体多团队系统框架》319页

专知会员服务

72+阅读 · 2024年5月1日

《多智能体系统的迭代规划：在能源感知无人机-无人地面车辆合作任务地点分配中的应用》

《多智能体系统的迭代规划：在能源感知无人机-无人地面车辆合作任务地点分配中的应用》

专知会员服务

38+阅读 · 2024年3月24日

《针对高性能协作跟踪和编队目标的分布式迭代学习控制》169页论文

《针对高性能协作跟踪和编队目标的分布式迭代学习控制》169页论文

专知会员服务

28+阅读 · 2024年3月23日

《异构多智能体系统在联合武器中的应用》美国空军2022最新106页论文

《异构多智能体系统在联合武器中的应用》美国空军2022最新106页论文

专知会员服务

176+阅读 · 2022年11月15日

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

专知会员服务

26+阅读 · 2019年10月3日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人水面艇文献综述与结构设计》135页

ICML 2026｜MEMOPILOT：用强化学习训练会进化的智能体记忆

《新空中力量概念：来自敏捷战斗运用的启示》2026最新50页报告

《自主蜂群系统的战略架构：多域一体化、抗毁韧性及海上作战框架（2025—2035）》46页报告

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

常用的模型集成方法介绍：bagging、boosting 、stacking

常用的模型集成方法介绍：bagging、boosting 、stacking

机器之心

14+阅读 · 2019年5月15日

基于车路协同的群体智能协同

基于车路协同的群体智能协同

智能交通技术

10+阅读 · 2019年1月23日

DeepMind：用PopArt进行多任务深度强化学习

DeepMind：用PopArt进行多任务深度强化学习

论智

30+阅读 · 2018年9月14日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

【干货】谷歌一个模型解决所有问题《One Model to Learn Them All》论文深度解读

【干货】谷歌一个模型解决所有问题《One Model to Learn Them All》论文深度解读

专知

10+阅读 · 2018年1月14日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

相关论文

MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks

Arxiv

0+阅读 · 3月9日

Agent Tools Orchestration Leaks More: Dataset, Benchmark, and Mitigation

Arxiv

0+阅读 · 3月6日

AgentDropoutV2: Optimizing Information Flow in Multi-Agent Systems via Test-Time Rectify-or-Reject Pruning

Arxiv

0+阅读 · 2月26日

AdaptOrch: Task-Adaptive Multi-Agent Orchestration in the Era of LLM Performance Convergence

Arxiv

0+阅读 · 2月18日

Multi-Agent Teams Hold Experts Back

Arxiv

0+阅读 · 2月9日

AgentXRay: White-Boxing Agentic Systems via Workflow Reconstruction

Arxiv

0+阅读 · 2月6日

Think-Augmented Function Calling: Improving LLM Parameter Accuracy Through Embedded Reasoning

Arxiv

0+阅读 · 2月6日

Multi-Agent Pathfinding Under Team-Connected Communication Constraint via Adaptive Path Expansion and Dynamic Leading

Arxiv

0+阅读 · 2月3日

Towards AI as Colleagues: Multi-Agent System Improves Structured Ideation Processes

Arxiv

0+阅读 · 1月31日

Multi-Agent Design: Optimizing Agents with Better Prompts and Topologies

Arxiv

0+阅读 · 1月31日

相关基金

支持新产品快速设计的复杂产品系统功能模块化方法

国家自然科学基金

1+阅读 · 2015年12月31日

三维空间基于角度测量的多机器人系统协同定位与编队控制

国家自然科学基金

11+阅读 · 2015年12月31日

基于演化博弈的多智能体环形编队的理论与实验研究

国家自然科学基金

23+阅读 · 2015年12月31日

随机环境下多个体系统集体行为分析、调控与优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态增益非线性干扰观测器的多智能体系统协调跟踪和干扰抑制

国家自然科学基金

1+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员