This position paper argues that the machine learning community must move from preaching to practising data frugality for responsible artificial intelligence (AI) development. For long, progress has been equated with ever-larger datasets, driving remarkable advances but now yielding increasingly diminishing performance gains alongside rising energy use and carbon emissions. While awareness of data frugal approaches has grown, their adoption has remained rhetorical, and data scaling continues to dominate development practice. We argue that this gap between preach and practice must be closed, as continued data scaling entails substantial and under-accounted environmental impacts. To ground our position, we provide indicative estimates of the energy use and carbon emissions associated with the downstream use of ImageNet-1K. We then present empirical evidence that data frugality is both practical and beneficial, demonstrating that coreset-based subset selection can substantially reduce training energy consumption with little loss in accuracy, while also mitigating dataset bias. Finally, we outline actionable recommendations for moving data frugality from rhetorical preach to concrete practice for responsible development of AI.


翻译:本立场论文主张,机器学习社区必须从空谈转向实践数据节俭,以实现负责任的人工智能(AI)发展。长期以来,进步被等同于使用越来越庞大的数据集,这推动了显著的进展,但如今却导致性能提升日益递减,同时伴随着能源消耗和碳排放的不断增长。尽管对数据节俭方法的认识有所提高,但其采用仍停留在口头层面,数据规模化在开发实践中仍占据主导地位。我们认为,这种空谈与实践之间的差距必须弥合,因为持续的数据规模化会带来巨大且未被充分核算的环境影响。为支撑我们的立场,我们提供了与ImageNet-1K下游使用相关的能源消耗和碳排放的指示性估算。随后,我们提供了经验证据,表明数据节俭既可行又有益,证明基于核心集的子集选择可以显著减少训练能耗,同时几乎不影响准确性,并缓解数据集偏差。最后,我们提出了可操作的建议,以推动数据节俭从口头空谈转向具体实践,从而实现负责任的人工智能发展。

0
下载
关闭预览

相关内容

【ETZH博士论文】数据驱动的人工智能
专知会员服务
41+阅读 · 2025年2月21日
绿色联邦学习:绿色意识AI的新时代
专知会员服务
18+阅读 · 2024年9月20日
美智库最新报告:小数据人工智能潜力不可估量,39页pdf
专知会员服务
75+阅读 · 2021年11月18日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月25日
Arxiv
0+阅读 · 2月18日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关VIP内容
【ETZH博士论文】数据驱动的人工智能
专知会员服务
41+阅读 · 2025年2月21日
绿色联邦学习:绿色意识AI的新时代
专知会员服务
18+阅读 · 2024年9月20日
美智库最新报告:小数据人工智能潜力不可估量,39页pdf
专知会员服务
75+阅读 · 2021年11月18日
相关基金
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员