The wide adoption of AI agents in complex human workflows is driving rapid growth in LLM token consumption. When agents are deployed on tasks that require a significant amount of tokens, three questions naturally arise: (1) Where do AI agents spend the tokens? (2) Which models are more token-efficient? and (3) Can agents predict their token usage before task execution? In this paper, we present the first systematic study of token consumption patterns in agentic coding tasks. We analyze trajectories from eight frontier LLMs on SWE-bench Verified and evaluate models' ability to predict their own token costs before task execution. We find that: (1) agentic tasks are uniquely expensive, consuming 1000x more tokens than code reasoning and code chat, with input tokens rather than output tokens driving the overall cost; (2) token usage is highly variable and inherently stochastic: runs on the same task can differ by up to 30x in total tokens, and higher token usage does not translate into higher accuracy; instead, accuracy often peaks at intermediate cost and saturates at higher costs; (3) models vary substantially in token efficiency: on the same tasks, Kimi-K2 and Claude-Sonnet-4.5, on average, consume over 1.5 million more tokens than GPT-5; (4) task difficulty rated by human experts only weakly aligns with actual token costs, revealing a fundamental gap between human-perceived complexity and the computational effort agents actually expend; and (5) frontier models fail to accurately predict their own token usage (with weak-to-moderate correlations, up to 0.39) and systematically underestimate real token costs. Our study offers new insights into the economics of AI agents and can inspire future research in this direction.


翻译:AI代理在复杂人类工作流程中的广泛应用正推动LLM代币消耗的快速增长。当代理被部署到需要大量代币的任务中时,自然会产生三个问题:(1)AI代理将代币消耗在何处?(2)哪些模型具有更高的代币效率?(3)代理能否在执行任务前预测其代币使用量?本文首次系统研究了代理型编码任务中的代币消耗模式。我们分析了八个前沿LLM在SWE-bench Verified上的轨迹,并评估了模型在执行任务前预测自身代币成本的能力。研究发现:(1)代理型任务具有独特的昂贵性,其代币消耗量是代码推理和代码对话的1000倍以上,且总成本主要来自输入代币而非输出代币;(2)代币使用高度可变且本质上是随机的:同一任务的多次运行,总代币消耗量差异可达30倍,且更高的代币使用量并不能转化为更高的准确率;相反,准确率通常在中位数成本处达到峰值,并在更高成本时趋于饱和;(3)不同模型的代币效率差异显著:在相同任务上,Kimi-K2和Claude-Sonnet-4.5平均消耗的代币数量比GPT-5多出150万以上;(4)人类专家评定的任务难度与实际代币成本之间的关联性较弱,揭示了人类感知的复杂度与代理实际投入的计算成本之间存在根本性差距;(5)前沿模型无法准确预测自身的代币使用量(相关性较弱至中等,最高仅为0.39),且系统性地低估了实际代币成本。本研究为AI代理的经济性提供了新见解,并可激发该方向的未来研究。

0
下载
关闭预览

相关内容

人工智能杂志AI(Artificial Intelligence)是目前公认的发表该领域最新研究成果的主要国际论坛。该期刊欢迎有关AI广泛方面的论文,这些论文构成了整个领域的进步,也欢迎介绍人工智能应用的论文,但重点应该放在新的和新颖的人工智能方法如何提高应用领域的性能,而不是介绍传统人工智能方法的另一个应用。关于应用的论文应该描述一个原则性的解决方案,强调其新颖性,并对正在开发的人工智能技术进行深入的评估。 官网地址:http://dblp.uni-trier.de/db/journals/ai/
AI生成代码缺陷综述
专知会员服务
17+阅读 · 2025年12月8日
AI在医疗中的安全挑战
专知会员服务
19+阅读 · 2024年10月5日
大型语言模型代理的安全与隐私综述
专知会员服务
30+阅读 · 2024年8月5日
AI Agent,大模型时代重要落地方向, 42页ppt
专知会员服务
291+阅读 · 2023年10月12日
AI Agent:基于大模型的自主智能体
专知会员服务
250+阅读 · 2023年9月9日
45K!刚面完 AI 岗,这几点分享给你!
AI100
17+阅读 · 2018年12月18日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
最新内容
重新思考无人机时代的生存能力
专知会员服务
5+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
4+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
6+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关资讯
45K!刚面完 AI 岗,这几点分享给你!
AI100
17+阅读 · 2018年12月18日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员