We study parallel test-time scaling for long-horizon agentic tasks such as agentic search and deep research, where multiple rollouts are generated in parallel and aggregated into a final response. While such scaling has proven effective for chain-of-thought reasoning, agentic tasks pose unique challenges: trajectories are long, multi-turn, and tool-augmented, and outputs are often open-ended. Aggregating only final answers discards rich information from trajectories, while concatenating all trajectories exceeds the model's context window. To address this, we propose AggAgent, an aggregation agent that treats parallel trajectories as an environment. We equip it with lightweight tools to inspect candidate solutions and search across trajectories, enabling it to navigate and synthesize information on demand. Across six benchmarks and three model families (GLM-4.7, Qwen3.5, MiniMax-M2.5), AggAgent outperforms all existing aggregation methods-by up to 5.3% absolute on average and 10.3% on two deep research tasks-while adding minimal overhead, as the aggregation cost remains bounded by a single agentic rollout. Our findings establish agentic aggregation as an effective and cost-efficient approach to parallel test-time scaling.


翻译:我们研究了长周期智能体任务(如智能体搜索和深度研究)的并行测试时扩展,其中并行生成多条轨迹并聚合为最终响应。虽然这种扩展已在思维链推理中被证明有效,但智能体任务提出了独特挑战:轨迹长、多轮交互、依赖工具,且输出往往是开放式的。仅对最终答案进行聚合会丢弃轨迹中的丰富信息,而拼接所有轨迹则会超出模型的上下文窗口。为此,我们提出AggAgent,一种将并行轨迹视为环境的聚合智能体。我们为其配备轻量级工具,用于检查候选解决方案并在轨迹间进行搜索,使其能够按需导航和综合信息。在六个基准测试和三个模型系列(GLM-4.7、Qwen3.5、MiniMax-M2.5)上,AggAgent在所有现有聚合方法中表现最优——平均绝对提升最高达5.3%,在两项深度研究任务上提升达10.3%——同时仅增加极小开销,因为聚合成本被限制在单次智能体轨迹内。我们的研究确立了智能体式聚合作为并行测试时扩展的有效且经济高效的方法。

0
下载
关闭预览

相关内容

AgentOps综述:智能体系统运维框架
专知会员服务
19+阅读 · 6月4日
多智能体协作机制
专知会员服务
23+阅读 · 4月25日
智能体工程(Agent Engineering)
专知会员服务
36+阅读 · 2025年12月31日
AI专题·Agent:智能体基建厚积薄发,商业化应用曙光乍现
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
DeepMind:用PopArt进行多任务深度强化学习
论智
30+阅读 · 2018年9月14日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
24+阅读 · 2024年2月23日
Arxiv
14+阅读 · 2023年8月7日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
0+阅读 · 11分钟前
综述 | 世界动作模型:少做梦,多行动
专知会员服务
0+阅读 · 13分钟前
美以伊冲突:无人机与人工智能的运用
专知会员服务
1+阅读 · 25分钟前
《特种部队在透明战场中的生存力》最新报告
专知会员服务
1+阅读 · 45分钟前
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员