Large-language-model (LLM)-based AI agents have recently showcased impressive versatility by employing dynamic reasoning, an adaptive, multi-step process that coordinates with external tools. This shift from static, single-turn inference to agentic, multi-turn workflows broadens task generalization and behavioral flexibility, but it also introduces serious concerns about system-level cost, efficiency, and sustainability. This paper presents the first comprehensive system-level analysis of AI agents, quantifying their resource usage, latency behavior, energy consumption, and datacenter-wide power consumption demands across diverse agent designs and test-time scaling strategies. We further characterize how AI agent design choices, such as few-shot prompting, reflection depth, and parallel reasoning, impact accuracy-cost tradeoffs. Our findings reveal that while agents improve accuracy with increased compute, they suffer from rapidly diminishing returns, widening latency variance, and unsustainable infrastructure costs. Through detailed evaluation of representative agents, we highlight the profound computational demands introduced by AI agent workflows, uncovering a looming sustainability crisis. These results call for a paradigm shift in agent design toward compute-efficient reasoning, balancing performance with deployability under real-world constraints.


翻译:基于大语言模型(LLM)的AI智能体近期通过采用动态推理——一种与外部工具协同的自适应多步骤过程——展现出令人瞩目的多功能性。这种从静态单轮推理向智能体化多轮工作流的转变,虽然拓宽了任务泛化能力和行为灵活性,但也引发了关于系统级成本、效率和可持续性的严重关切。本文首次对AI智能体进行了全面的系统级分析,量化了不同智能体设计和测试时扩展策略下的资源使用、延迟特性、能耗及数据中心整体功耗需求。我们进一步揭示了AI智能体设计选择(如少样本提示、反思深度和并行推理)如何影响精度-成本权衡。研究发现表明,虽然智能体通过增加计算量提升了精度,但其收益迅速递减,延迟方差扩大,且基础设施成本不可持续。通过对代表性智能体的详细评估,我们凸显了AI智能体工作流带来的巨大计算需求,揭示了一场迫在眉睫的可持续性危机。这些结果呼吁智能体设计范式向计算高效推理转变,在现实约束下平衡性能与可部署性。

0
下载
关闭预览

相关内容

人工智能杂志AI(Artificial Intelligence)是目前公认的发表该领域最新研究成果的主要国际论坛。该期刊欢迎有关AI广泛方面的论文,这些论文构成了整个领域的进步,也欢迎介绍人工智能应用的论文,但重点应该放在新的和新颖的人工智能方法如何提高应用领域的性能,而不是介绍传统人工智能方法的另一个应用。关于应用的论文应该描述一个原则性的解决方案,强调其新颖性,并对正在开发的人工智能技术进行深入的评估。 官网地址:http://dblp.uni-trier.de/db/journals/ai/
Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
国家自然科学基金
46+阅读 · 2015年12月31日
VIP会员
相关资讯
Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
相关基金
Top
微信扫码咨询专知VIP会员