Current AI energy benchmarks measure consumption at the granularity of a single model invocation or training run. For classical single-turn workloads this unit remains coherent. For agentic systems - where a single user goal may trigger multi-step orchestration, tool calls, retries, and failure-recovery cycles - the invocation count is an implementation artifact rather than a task property, and inference-level normalization misrepresents the energy cost of goal completion. We present A-LEMS (Agentic LLM Energy Measurement System), a cross-layer measurement framework that redefines the unit of AI energy accounting from energy per inference to Energy per Successful Goal (EpG). EpG aggregates total workflow energy across all execution attempts, including failures and retries, normalized by successfully completed goals. A-LEMS formalizes energy attribution through a temporal boundary model, a five-layer observation pipeline mapping RAPL signals to workflow-level energy, and a reproducibility protocol binding every measurement to hardware and runtime configuration. Building on EpG, we define the Orchestration Overhead Index (OOI), isolating the energy cost of orchestration relative to linear execution under identical task criteria. Across five reasoning and three tool-augmented task families, agentic workflows consume 4.33x higher mean energy per successful goal than linear baselines (888.1 J vs 205.3 J). This overhead is driven by orchestration structure, not inference compute. For tool-augmented tasks, OOI inverts below 1.0x: agentic execution is cheaper than linear, confirming the metric captures orchestration structure rather than a fixed upward bias. These findings establish that energy-per-inference is insufficient for agentic AI. EpG and OOI provide the measurement foundation for accurate benchmarking, where orchestration structure is the primary determinant of energy cost.


翻译:当前AI能耗基准以单次模型调用或训练运行的粒度衡量能耗。对于经典的单轮任务,该单位保持一致性。但对于自主系统——其中单个用户目标可能触发多步编排、工具调用、重试及失败恢复循环——调用次数是实现产物而非任务属性,推理级归一化会歪曲目标完成所需的能耗成本。我们提出A-LEMS(自主大语言模型能耗测量系统),这是一个跨层测量框架,将AI能耗核算单位从"每次推理能耗"重新定义为"每成功目标能耗"(EpG)。EpG聚合所有执行尝试(包括失败和重试)的工作流总能耗,并按成功完成的目标数量进行归一化。A-LEMS通过时间边界模型、将RAPL信号映射至工作流级能耗的五层观测流水线,以及将每次测量与硬件及运行时配置绑定的可复现性协议,实现了能耗归属的形式化。基于EpG,我们定义编排开销指数(OOI),用以在相同任务条件下隔离编排相对于线性执行的能耗成本。在五个推理任务族和三个工具增强任务族中,自主工作流每成功目标平均能耗比线性基线高4.33倍(888.1焦耳对比205.3焦耳)。该开销由编排结构驱动,而非推理计算量。对于工具增强任务,OOI反转至低于1.0倍:自主执行比线性更经济,证实该指标捕获的是编排结构而非固定向上偏差。这些发现表明,"每次推理能耗"对于自主AI并不充分。EpG与OOI为准确基准测试提供了测量基础,其中编排结构是能耗成本的主要决定因素。

0
下载
关闭预览

相关内容

人工智能杂志AI(Artificial Intelligence)是目前公认的发表该领域最新研究成果的主要国际论坛。该期刊欢迎有关AI广泛方面的论文,这些论文构成了整个领域的进步,也欢迎介绍人工智能应用的论文,但重点应该放在新的和新颖的人工智能方法如何提高应用领域的性能,而不是介绍传统人工智能方法的另一个应用。关于应用的论文应该描述一个原则性的解决方案,强调其新颖性,并对正在开发的人工智能技术进行深入的评估。 官网地址:http://dblp.uni-trier.de/db/journals/ai/
AI 智能体系统:体系架构、应用场景及评估范式
AI专题·Agent:智能体基建厚积薄发,商业化应用曙光乍现
《面向边缘AI应用的高性能高能效架构探索》156页
专知会员服务
37+阅读 · 2025年4月12日
算力报告:算力供需双向走强,AI催化Infra建设新征程
专知会员服务
38+阅读 · 2024年9月7日
AI Agent:基于大模型的自主智能体
专知会员服务
250+阅读 · 2023年9月9日
2022-2023中国人工智能计算力发展评估报告,32页pdf
专知会员服务
52+阅读 · 2023年1月4日
2020-2021中国人工智能计算力发展评估报告, 36页pdf
专知会员服务
46+阅读 · 2021年3月20日
【Facebook】人工智能基准(Benchmarking)测试再思考,55页ppt
专知会员服务
31+阅读 · 2020年12月20日
《AI 算法手册》目录 | 机器学习知识点系统性梳理!
数说工作室
23+阅读 · 2019年5月28日
完备的 AI 学习路线,最详细的资源整理!
新智元
18+阅读 · 2019年5月4日
AI综述专栏 | 基于深度学习的目标检测算法综述
人工智能前沿讲习班
12+阅读 · 2018年12月7日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
0+阅读 · 5分钟前
21世纪的无人机战争
专知会员服务
1+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
1+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
AI 智能体系统:体系架构、应用场景及评估范式
AI专题·Agent:智能体基建厚积薄发,商业化应用曙光乍现
《面向边缘AI应用的高性能高能效架构探索》156页
专知会员服务
37+阅读 · 2025年4月12日
算力报告:算力供需双向走强,AI催化Infra建设新征程
专知会员服务
38+阅读 · 2024年9月7日
AI Agent:基于大模型的自主智能体
专知会员服务
250+阅读 · 2023年9月9日
2022-2023中国人工智能计算力发展评估报告,32页pdf
专知会员服务
52+阅读 · 2023年1月4日
2020-2021中国人工智能计算力发展评估报告, 36页pdf
专知会员服务
46+阅读 · 2021年3月20日
【Facebook】人工智能基准(Benchmarking)测试再思考,55页ppt
专知会员服务
31+阅读 · 2020年12月20日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员