Language models have seen enormous progress on advanced benchmarks in recent years, but much of this progress has only been possible by using more costly models. Benchmarks may therefore present a warped picture of progress in practical capabilities *per dollar*. To remedy this, we use data from Artificial Analysis and Epoch AI to form the largest dataset of current and historical prices to run benchmarks to date. We find that the price for a given level of benchmark performance has decreased remarkably fast, around $5\times$ to $10\times$ per year, for frontier models on knowledge, reasoning, math, and software engineering benchmarks. These reductions in the cost of AI inference are due to economic forces, hardware efficiency improvements, and algorithmic efficiency improvements. Isolating out open models to control for competition effects and dividing by hardware price declines, we estimate that algorithmic efficiency progress is around $3\times$ per year. However, at the same time, the price of running frontier models is rising between $3\times$ to $18\times$ per year due to bigger models and larger reasoning demands. Finally, we recommend that evaluators both publicize and take into account the price of benchmarking as an essential part of measuring the real-world impact of AI.


翻译:近年来,语言模型在高级基准测试中取得了显著进展,但这一进步在很大程度上依赖于成本更高的模型。因此,基准测试可能扭曲了每单位成本下实际能力提升的真实图景。为解决这一问题,我们整合了来自Artificial Analysis和Epoch AI的数据,构建了迄今为止最全面的当前与历史基准运行价格数据集。研究发现,在知识、推理、数学及软件工程等领域的顶尖模型中,达到特定基准性能水平的成本正以每年约5至10倍的惊人速度下降。AI推理成本的降低源于经济因素、硬件效率提升以及算法效率优化。在剔除开源模型以控制竞争效应,并除以硬件价格下降幅度后,我们估算出算法效率每年约提升3倍。然而与此同时,受模型规模扩大和推理需求增加的影响,运行顶尖模型的成本正以每年3至18倍的速率上升。最后,我们建议评估者将基准测试的成本视为衡量AI实际影响力的核心要素,并予以公开与考量。

0
下载
关闭预览

相关内容

【斯坦福博士论文】持续自我改进的人工智能
专知会员服务
14+阅读 · 3月22日
《人工智能算法进展 :近期发展预测综述》最新54页报告
浅谈人工智能的趋势和展望
专知会员服务
46+阅读 · 2024年5月11日
【Facebook】人工智能基准(Benchmarking)测试再思考,55页ppt
专知会员服务
31+阅读 · 2020年12月20日
Gartner 报告:人工智能的现状与未来
InfoQ
14+阅读 · 2019年11月29日
人工智能的现状与未来(附PPT)
人工智能学家
76+阅读 · 2019年3月27日
用机器学习来预测股价(代码+文档)——2018年iNTUtion决赛大作!
量化投资与机器学习
25+阅读 · 2018年11月20日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
VIP会员
最新内容
重新思考无人机时代的生存能力
专知会员服务
4+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
4+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
5+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员