The Price of Progress: Price Performance and the Future of AI - 专知论文

会员服务 ·

0

基准 · 基准测试 · AI · 代价 · 算法 ·

The Price of Progress: Price Performance and the Future of AI

翻译：进步的代价：性能价格与人工智能的未来

Hans Gundlach,Jayson Lynch,Matthias Mertens,Neil Thompson

Language models have seen enormous progress on advanced benchmarks in recent years, but much of this progress has only been possible by using more costly models. Benchmarks may therefore present a warped picture of progress in practical capabilities *per dollar*. To remedy this, we use data from Artificial Analysis and Epoch AI to form the largest dataset of current and historical prices to run benchmarks to date. We find that the price for a given level of benchmark performance has decreased remarkably fast, around $5\times$ to $10\times$ per year, for frontier models on knowledge, reasoning, math, and software engineering benchmarks. These reductions in the cost of AI inference are due to economic forces, hardware efficiency improvements, and algorithmic efficiency improvements. Isolating out open models to control for competition effects and dividing by hardware price declines, we estimate that algorithmic efficiency progress is around $3\times$ per year. However, at the same time, the price of running frontier models is rising between $3\times$ to $18\times$ per year due to bigger models and larger reasoning demands. Finally, we recommend that evaluators both publicize and take into account the price of benchmarking as an essential part of measuring the real-world impact of AI.

翻译：近年来，语言模型在高级基准测试中取得了显著进展，但这一进步在很大程度上依赖于成本更高的模型。因此，基准测试可能扭曲了每单位成本下实际能力提升的真实图景。为解决这一问题，我们整合了来自Artificial Analysis和Epoch AI的数据，构建了迄今为止最全面的当前与历史基准运行价格数据集。研究发现，在知识、推理、数学及软件工程等领域的顶尖模型中，达到特定基准性能水平的成本正以每年约5至10倍的惊人速度下降。AI推理成本的降低源于经济因素、硬件效率提升以及算法效率优化。在剔除开源模型以控制竞争效应，并除以硬件价格下降幅度后，我们估算出算法效率每年约提升3倍。然而与此同时，受模型规模扩大和推理需求增加的影响，运行顶尖模型的成本正以每年3至18倍的速率上升。最后，我们建议评估者将基准测试的成本视为衡量AI实际影响力的核心要素，并予以公开与考量。

0

相关内容

【斯坦福博士论文】持续自我改进的人工智能

【斯坦福博士论文】持续自我改进的人工智能

专知会员服务

14+阅读 · 3月22日

智能体化人工智能 (Agentic AI) 的前行之路：挑战与机遇

智能体化人工智能 (Agentic AI) 的前行之路：挑战与机遇

专知会员服务

43+阅读 · 1月8日

生成式人工智能时代的多目标推荐：最新进展与未来展望综述

生成式人工智能时代的多目标推荐：最新进展与未来展望综述

专知会员服务

36+阅读 · 2025年6月23日

《人工智能算法进展：近期发展预测综述》最新54页报告

《人工智能算法进展：近期发展预测综述》最新54页报告

专知会员服务

62+阅读 · 2025年4月24日

【AI4Science】利用大型语言模型变革科学：关于人工智能辅助科学发现、实验、内容生成与评估的调研

【AI4Science】利用大型语言模型变革科学：关于人工智能辅助科学发现、实验、内容生成与评估的调研

专知会员服务

33+阅读 · 2025年2月10日

【新书】生成式AI的提示工程：为可靠的AI输出提供面向未来的输入

【新书】生成式AI的提示工程：为可靠的AI输出提供面向未来的输入

专知会员服务

68+阅读 · 2024年6月10日

【新书】生成式人工智能的提示工程：为可靠的AI输出提供面向未来的输入

【新书】生成式人工智能的提示工程：为可靠的AI输出提供面向未来的输入

专知会员服务

67+阅读 · 2024年5月25日

浅谈人工智能的趋势和展望

浅谈人工智能的趋势和展望

专知会员服务

46+阅读 · 2024年5月11日

代码大模型有何进展？《神经代码智能》最新综述：范式、进步与未来

代码大模型有何进展？《神经代码智能》最新综述：范式、进步与未来

专知会员服务

54+阅读 · 2024年3月25日

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

专知会员服务

31+阅读 · 2020年12月20日

万字长文解读：从Transformer到ChatGPT，通用人工智能曙光初现

万字长文解读：从Transformer到ChatGPT，通用人工智能曙光初现

CSDN

16+阅读 · 2023年4月12日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

清华大学、中国人工智能学会联合发布《2019人工智能发展报告》，391页pdf详述进展

清华大学、中国人工智能学会联合发布《2019人工智能发展报告》，391页pdf详述进展

专知

24+阅读 · 2019年12月1日

Gartner 报告：人工智能的现状与未来

Gartner 报告：人工智能的现状与未来

InfoQ

14+阅读 · 2019年11月29日

可解释人工智能XAI进展，看这份100页PPT为你讲解

可解释人工智能XAI进展，看这份100页PPT为你讲解

专知

49+阅读 · 2019年10月27日

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

机器之心

20+阅读 · 2019年5月3日

人工智能的现状与未来（附PPT）

人工智能的现状与未来（附PPT）

人工智能学家

76+阅读 · 2019年3月27日

书单 | 系统了解智能问答和机器翻译，从这两本书开始（文末有福利）

书单 | 系统了解智能问答和机器翻译，从这两本书开始（文末有福利）

微软研究院AI头条

24+阅读 · 2019年1月22日

用机器学习来预测股价（代码+文档）——2018年iNTUtion决赛大作！

用机器学习来预测股价（代码+文档）——2018年iNTUtion决赛大作！

量化投资与机器学习

25+阅读 · 2018年11月20日

展望：模型驱动的深度学习

展望：模型驱动的深度学习

人工智能学家

12+阅读 · 2018年1月23日

战略构想、知识搜寻与双元导向下企业技术创新能力演进：基于适应性演进和协同视角

国家自然科学基金

2+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

数据分析算法的融合与人才培养

国家自然科学基金

7+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

接力创新中大数据价值的评估与分配研究

国家自然科学基金

2+阅读 · 2014年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

Generative AI and the future of scientometrics: current topics and future questions

Arxiv

0+阅读 · 6月15日

Can Artificial Intelligence Accelerate Technological Progress? Researchers' Perspectives on AI in Manufacturing and Materials Science

Arxiv

0+阅读 · 6月14日

How Hyper-Datafication Impacts the Sustainability Costs in Frontier AI

Arxiv

0+阅读 · 6月7日

Towards a Science of AI Agent Reliability

Arxiv

0+阅读 · 6月2日

ProEval: Proactive Failure Discovery and Efficient Performance Estimation for Generative AI Evaluation

Arxiv

0+阅读 · 6月1日

The Social Cost of Intelligence: Emergence, Propagation, and Amplification of Stereotypical Bias in Multi-Agent Systems

Arxiv

0+阅读 · 6月1日

From Frontier to Shadow AI: A Simmering Threat to Assurance and Security in Critical Infrastructure

Arxiv

0+阅读 · 5月23日

GraphBench: Next-generation graph learning benchmarking

Arxiv

0+阅读 · 5月9日

When Large Language Models Meet Personalization: Perspectives of Challenges and Opportunities

Arxiv

19+阅读 · 2023年7月31日

Vision-Language Models in Remote Sensing: Current Progress and Future Trends

Arxiv

11+阅读 · 2023年5月9日

VIP会员

文章信息

相关主题

最新内容

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

5+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

4+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

4+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

4+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

5+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

4+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

5+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

4+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

相关VIP内容

【斯坦福博士论文】持续自我改进的人工智能

【斯坦福博士论文】持续自我改进的人工智能

专知会员服务

14+阅读 · 3月22日

智能体化人工智能 (Agentic AI) 的前行之路：挑战与机遇

智能体化人工智能 (Agentic AI) 的前行之路：挑战与机遇

专知会员服务

43+阅读 · 1月8日

生成式人工智能时代的多目标推荐：最新进展与未来展望综述

生成式人工智能时代的多目标推荐：最新进展与未来展望综述

专知会员服务

36+阅读 · 2025年6月23日

《人工智能算法进展：近期发展预测综述》最新54页报告

《人工智能算法进展：近期发展预测综述》最新54页报告

专知会员服务

62+阅读 · 2025年4月24日

【AI4Science】利用大型语言模型变革科学：关于人工智能辅助科学发现、实验、内容生成与评估的调研

【AI4Science】利用大型语言模型变革科学：关于人工智能辅助科学发现、实验、内容生成与评估的调研

专知会员服务

33+阅读 · 2025年2月10日

【新书】生成式AI的提示工程：为可靠的AI输出提供面向未来的输入

【新书】生成式AI的提示工程：为可靠的AI输出提供面向未来的输入

专知会员服务

68+阅读 · 2024年6月10日

【新书】生成式人工智能的提示工程：为可靠的AI输出提供面向未来的输入

【新书】生成式人工智能的提示工程：为可靠的AI输出提供面向未来的输入

专知会员服务

67+阅读 · 2024年5月25日

浅谈人工智能的趋势和展望

浅谈人工智能的趋势和展望

专知会员服务

46+阅读 · 2024年5月11日

代码大模型有何进展？《神经代码智能》最新综述：范式、进步与未来

代码大模型有何进展？《神经代码智能》最新综述：范式、进步与未来

专知会员服务

54+阅读 · 2024年3月25日

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

专知会员服务

31+阅读 · 2020年12月20日

热门VIP内容

开通专知VIP会员享更多权益服务

重新思考无人机时代的生存能力

在人工智能加速决策环境中拓展OODA循环

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

装甲突击旅：现代战争思考、战斗与组织

相关资讯

万字长文解读：从Transformer到ChatGPT，通用人工智能曙光初现

万字长文解读：从Transformer到ChatGPT，通用人工智能曙光初现

CSDN

16+阅读 · 2023年4月12日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

清华大学、中国人工智能学会联合发布《2019人工智能发展报告》，391页pdf详述进展

清华大学、中国人工智能学会联合发布《2019人工智能发展报告》，391页pdf详述进展

专知

24+阅读 · 2019年12月1日

Gartner 报告：人工智能的现状与未来

Gartner 报告：人工智能的现状与未来

InfoQ

14+阅读 · 2019年11月29日

可解释人工智能XAI进展，看这份100页PPT为你讲解

可解释人工智能XAI进展，看这份100页PPT为你讲解

专知

49+阅读 · 2019年10月27日

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

机器之心

20+阅读 · 2019年5月3日

人工智能的现状与未来（附PPT）

人工智能的现状与未来（附PPT）

人工智能学家

76+阅读 · 2019年3月27日

书单 | 系统了解智能问答和机器翻译，从这两本书开始（文末有福利）

书单 | 系统了解智能问答和机器翻译，从这两本书开始（文末有福利）

微软研究院AI头条

24+阅读 · 2019年1月22日

用机器学习来预测股价（代码+文档）——2018年iNTUtion决赛大作！

用机器学习来预测股价（代码+文档）——2018年iNTUtion决赛大作！

量化投资与机器学习

25+阅读 · 2018年11月20日

展望：模型驱动的深度学习

展望：模型驱动的深度学习

人工智能学家

12+阅读 · 2018年1月23日

相关论文

Generative AI and the future of scientometrics: current topics and future questions

Arxiv

0+阅读 · 6月15日

Can Artificial Intelligence Accelerate Technological Progress? Researchers' Perspectives on AI in Manufacturing and Materials Science

Arxiv

0+阅读 · 6月14日

How Hyper-Datafication Impacts the Sustainability Costs in Frontier AI

Arxiv

0+阅读 · 6月7日

Towards a Science of AI Agent Reliability

Arxiv

0+阅读 · 6月2日

ProEval: Proactive Failure Discovery and Efficient Performance Estimation for Generative AI Evaluation

Arxiv

0+阅读 · 6月1日

The Social Cost of Intelligence: Emergence, Propagation, and Amplification of Stereotypical Bias in Multi-Agent Systems

Arxiv

0+阅读 · 6月1日

From Frontier to Shadow AI: A Simmering Threat to Assurance and Security in Critical Infrastructure

Arxiv

0+阅读 · 5月23日

GraphBench: Next-generation graph learning benchmarking

Arxiv

0+阅读 · 5月9日

When Large Language Models Meet Personalization: Perspectives of Challenges and Opportunities

Arxiv

19+阅读 · 2023年7月31日

Vision-Language Models in Remote Sensing: Current Progress and Future Trends

Arxiv

11+阅读 · 2023年5月9日

相关基金

战略构想、知识搜寻与双元导向下企业技术创新能力演进：基于适应性演进和协同视角

国家自然科学基金

2+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

数据分析算法的融合与人才培养

国家自然科学基金

7+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

接力创新中大数据价值的评估与分配研究

国家自然科学基金

2+阅读 · 2014年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员