Small language models are increasingly viewed as a promising, cost-effective approach to agentic AI, with proponents claiming they are sufficiently capable for agentic workflows. However, while smaller agents can closely match larger ones on simple tasks, it remains unclear how their performance scales with task complexity, when large models become necessary, and how to better leverage small agents for long-horizon workloads. In this work, we empirically show that small agents' performance fails to scale with task complexity on deep search and coding tasks, and we introduce Strategy Auctions for Workload Efficiency (SALE), an agent framework inspired by freelancer marketplaces. In SALE, agents bid with short strategic plans, which are scored by a systematic cost-value mechanism and refined via a shared auction memory, enabling per-task routing and continual self-improvement without training a separate router or running all models to completion. Across deep search and coding tasks of varying complexity, SALE reduces reliance on the largest agent by 52%, lowers overall cost by 35%, and consistently improves upon the largest agent's pass@1 with only a negligible overhead beyond executing the final trace. In contrast, established routers that rely on task descriptions either underperform the largest agent or fail to reduce cost, often both, underscoring their poor fit for agentic workflows. These results suggest that while small agents may be insufficient for complex workloads, they can be effectively "scaled up" through coordinated task allocation and test-time self-improvement. More broadly, they motivate a systems-level view of agentic AI in which performance gains come less from ever-larger individual models and more from market-inspired coordination mechanisms that organize heterogeneous agents into efficient, adaptive ecosystems.


翻译:小型语言模型正日益被视为一种有前景且经济高效的智能体AI方法,支持者声称它们足以胜任智能体工作流。然而,尽管小型智能体在简单任务上能与大型智能体相媲美,但其性能如何随任务复杂度扩展、何时需要大型模型,以及如何更好地利用小型智能体处理长周期工作负载,这些问题仍不明确。本研究通过实验表明,小型智能体的性能在深度搜索和编码任务上无法随任务复杂度扩展,并提出了面向工作负载效率的策略拍卖框架(SALE)。SALE受自由职业者市场启发,智能体通过提交简短策略计划进行竞标,这些计划由系统性的成本-价值机制评分,并通过共享拍卖记忆进行优化,从而实现任务级路由和持续自我改进,无需训练独立路由模块或执行所有完整模型。在复杂度各异的深度搜索和编码任务中,SALE将最大型智能体的使用量减少52%,总成本降低35%,并在仅增加微不足道的执行最终轨迹开销的情况下,持续提升大型智能体的pass@1指标。相比之下,依赖任务描述的现有路由方法要么性能劣于大型智能体,要么无法降低成本,甚至两者兼有,凸显了其对智能体工作流的不适用性。这些结果表明,尽管小型智能体可能不足以应对复杂工作负载,但通过协调的任务分配和测试时自我改进,它们可以被有效“扩展”。更广泛地看,这推动了智能体AI的系统层面视角——性能提升并非主要来自日益庞大的个体模型,而是源于类似市场的协调机制,将异构智能体组织成高效、自适应的生态系统。

0
下载
关闭预览

相关内容

运用小型语言模型解锁战术边缘人工智能优势
专知会员服务
31+阅读 · 2025年9月7日
大语言模型与小语言模型协同机制综述
专知会员服务
40+阅读 · 2025年5月15日
AI专题·Agent:智能体基建厚积薄发,商业化应用曙光乍现
LLM 时代小模型的应用潜力与挑战 ,50页pdf
专知会员服务
37+阅读 · 2025年2月25日
Agent视域下的人工智能赋能作战系统
专知会员服务
58+阅读 · 2024年12月15日
Al Agent--大模型时代重要落地方向
专知会员服务
107+阅读 · 2024年4月8日
数字世界中的大模型Agent:机遇与风险
专知会员服务
61+阅读 · 2023年12月25日
AI Agent,大模型时代重要落地方向, 42页ppt
专知会员服务
291+阅读 · 2023年10月12日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
深度学习中Attention Mechanism详细介绍:原理、分类及应用
深度学习与NLP
10+阅读 · 2019年2月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Relation Networks for Object Detection 论文笔记
统计学习与视觉计算组
16+阅读 · 2018年4月18日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
原创 | Attention Modeling for Targeted Sentiment
黑龙江大学自然语言处理实验室
25+阅读 · 2017年11月5日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
10+阅读 · 6月15日
相关VIP内容
运用小型语言模型解锁战术边缘人工智能优势
专知会员服务
31+阅读 · 2025年9月7日
大语言模型与小语言模型协同机制综述
专知会员服务
40+阅读 · 2025年5月15日
AI专题·Agent:智能体基建厚积薄发,商业化应用曙光乍现
LLM 时代小模型的应用潜力与挑战 ,50页pdf
专知会员服务
37+阅读 · 2025年2月25日
Agent视域下的人工智能赋能作战系统
专知会员服务
58+阅读 · 2024年12月15日
Al Agent--大模型时代重要落地方向
专知会员服务
107+阅读 · 2024年4月8日
数字世界中的大模型Agent:机遇与风险
专知会员服务
61+阅读 · 2023年12月25日
AI Agent,大模型时代重要落地方向, 42页ppt
专知会员服务
291+阅读 · 2023年10月12日
相关资讯
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
深度学习中Attention Mechanism详细介绍:原理、分类及应用
深度学习与NLP
10+阅读 · 2019年2月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Relation Networks for Object Detection 论文笔记
统计学习与视觉计算组
16+阅读 · 2018年4月18日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
原创 | Attention Modeling for Targeted Sentiment
黑龙江大学自然语言处理实验室
25+阅读 · 2017年11月5日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员