Multi-agent AI systems have proven effective for complex reasoning. These systems are compounded by specialized agents, which collaborate through explicit communication, but incur substantial computational overhead. A natural question arises: can we achieve similar modularity benefits with a single agent that selects from a library of skills? We explore this question by viewing skills as internalized agent behaviors. From this perspective, a multi-agent system can be compiled into an equivalent single-agent system, trading inter-agent communication for skill selection. Our preliminary experiments suggest this approach can substantially reduce token usage and latency while maintaining competitive accuracy on reasoning benchmarks. However, this efficiency raises a deeper question that has received little attention: how does skill selection scale as libraries grow? Drawing on principles from cognitive science, we propose that LLM skill selection exhibits bounded capacity analogous to human decision-making. We investigate the scaling behavior of skill selection and observe a striking pattern. Rather than degrading gradually, selection accuracy remains stable up to a critical library size, then drops sharply, indicating a phase transition reminiscent of capacity limits in human cognition. Furthermore, we find evidence that semantic confusability among similar skills, rather than library size alone, plays a central role in this degradation. This perspective suggests that hierarchical organization, which has long helped humans manage complex choices, may similarly benefit AI systems. Our initial results with hierarchical routing support this hypothesis. This work opens new questions about the fundamental limits of semantic-based skill selection in LLMs and offers a cognitive-grounded framework and practical guidelines for designing scalable skill-based agents.


翻译:多智能体人工智能系统已被证明在复杂推理任务中具有高效性。这些系统由专业化智能体构成,通过显式通信进行协作,但会产生巨大的计算开销。一个自然问题随之产生:能否通过具备技能库选择能力的单智能体实现类似的模块化优势?我们将技能视为内化的智能体行为,并基于此视角探讨该问题。从这一视角出发,多智能体系统可被编译为等效的单智能体系统,将智能体间通信转换为技能选择机制。初步实验表明,该方法能在保持推理基准测试竞争力的同时,显著降低令牌使用量和延迟。然而,这种效率优势引发了一个尚未受到足够重视的深层问题:技能选择机制如何随技能库规模扩展而演变?借鉴认知科学原理,我们提出大语言模型的技能选择存在类似人类决策的有限容量边界。通过研究技能选择的扩展行为,我们观察到一种显著模式:选择准确率并非逐渐衰减,而是在达到临界技能库规模前保持稳定,随后急剧下降,呈现出类似人类认知容量限制的相变现象。进一步研究发现,语义相似技能间的混淆性(而非单纯的技能库规模)是导致性能衰退的核心因素。这一视角表明,长期帮助人类管理复杂选择的层次化组织方式,同样可能使人工智能系统受益。我们在层次化路由机制中的初步实验结果支持这一假设。本研究开启了大语言模型中基于语义的技能选择机制存在根本性限制的新探讨,并为设计可扩展的技能型智能体提供了认知理论基础和实践指导框架。

0
下载
关闭预览

相关内容

【ICML2025】通用智能体需要世界模型
专知会员服务
23+阅读 · 2025年6月4日
专知会员服务
25+阅读 · 2021年9月25日
Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
Auto-Keras与AutoML:入门指南
云栖社区
18+阅读 · 2019年2月9日
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关VIP内容
相关资讯
Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
Auto-Keras与AutoML:入门指南
云栖社区
18+阅读 · 2019年2月9日
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员