Position: Stop Preaching and Start Practising Data Frugality for Responsible Development of AI - 专知论文

会员服务 ·

0

声明 · AI · 数据集 · 呈现 · 预估 ·

Position: Stop Preaching and Start Practising Data Frugality for Responsible Development of AI

翻译：立场声明：停止空谈，践行数据节俭，以负责任地发展人工智能

Sophia N. Wilson,Andrew Millard,Guðrún Fjóla Guðmundsdóttir,Raghavendra Selvan,Sebastian Mair

from arxiv, ICML 2026

This position paper argues that the machine learning community must move from preaching to practising data frugality for responsible artificial intelligence (AI) development. For too long, progress has been equated with ever-larger datasets, driving remarkable advances but now yielding increasingly diminishing performance gains alongside rising energy use and carbon emissions. While awareness of data frugal approaches has grown, their adoption has remained rhetorical, and data scaling continues to dominate development practice. We argue that this gap between preach and practice must be closed, as continued data scaling entails substantial and under-accounted environmental impacts. To ground our position, we provide indicative estimates of the energy use and carbon emissions associated with the downstream use of ImageNet-1K. We then present empirical evidence that data frugality is both practical and beneficial, demonstrating that subset selection methods can substantially reduce training energy consumption with little loss in accuracy, while also mitigating dataset bias. Finally, we outline actionable recommendations for moving data frugality from rhetorical preaching to concrete practice for responsible development of AI.

翻译：本文立场声明，主张机器学习领域必须从空谈转向践行数据节俭，以负责任地发展人工智能（AI）。长期以来，技术进步一直等同于使用越来越大的数据集，这虽然推动了显著进展，但如今正呈现边际性能收益递减、而能源消耗和碳排放持续上升的趋势。尽管对数据节俭方法的认识有所提高，但其采纳仍停留在口头上，数据规模扩张仍主导着开发实践。我们认为，必须弥合这种说与做之间的差距，因为持续的数据扩张会带来巨大且未被充分核算的环境影响。为佐证我们的立场，我们预估了ImageNet-1K下游使用相关的能源消耗和碳排放量。接着，我们提供经验证据表明数据节俭既实用又有益，证明子集选择方法能在几乎不牺牲准确率的情况下大幅降低训练能源消耗，同时减轻数据集偏差。最后，我们概述了将数据节俭从口头宣传转化为负责任地开发AI的具体实践的可操作建议。

0

相关内容

【ETZH博士论文】数据驱动的人工智能

【ETZH博士论文】数据驱动的人工智能

专知会员服务

41+阅读 · 2025年2月21日

【剑桥大学博士论文】使用Dataflow实现可维护和可解释的AI系统，189页pdf

【剑桥大学博士论文】使用Dataflow实现可维护和可解释的AI系统，189页pdf

专知会员服务

34+阅读 · 2024年5月8日

【2023新书】构建负责任的AI算法：透明度、公平性、安全性、隐私和稳健性的框架，196页pdf

【2023新书】构建负责任的AI算法：透明度、公平性、安全性、隐私和稳健性的框架，196页pdf

专知会员服务

70+阅读 · 2023年8月20日

什么是Data-Centric AI？Rice大学最新《以数据为中心的人工智能》研究综述，38页pdf全面阐述DCAI技术体系

什么是Data-Centric AI？Rice大学最新《以数据为中心的人工智能》研究综述，38页pdf全面阐述DCAI技术体系

专知会员服务

76+阅读 · 2023年3月21日

《负责任人工智能：概念、批判观点和信息系统研究议程》2022.12最新论文，挪威科技大学等

《负责任人工智能：概念、批判观点和信息系统研究议程》2022.12最新论文，挪威科技大学等

专知会员服务

26+阅读 · 2023年1月18日

【ICLR 2022】MIT论文解读：谈到人工智能，我们可以抛弃数据集吗？基于ML创建合成数据，Generative Models As A Data Source For Multiview Representation Learning

【ICLR 2022】MIT论文解读：谈到人工智能，我们可以抛弃数据集吗？基于ML创建合成数据，Generative Models As A Data Source For Multiview Representation Learning

专知会员服务

41+阅读 · 2022年3月15日

IDC百度发布首份《人工智能助力中国“双碳”目标达成2021》白皮书（附下载），47页pdf

IDC百度发布首份《人工智能助力中国“双碳”目标达成2021》白皮书（附下载），47页pdf

专知会员服务

97+阅读 · 2022年2月25日

美智库最新报告：小数据人工智能潜力不可估量，39页pdf

美智库最新报告：小数据人工智能潜力不可估量，39页pdf

专知会员服务

75+阅读 · 2021年11月18日

2019年人工智能发展白皮书，中国科学院大数据挖掘与知识管理重点实验室，附47页pdf

2019年人工智能发展白皮书，中国科学院大数据挖掘与知识管理重点实验室，附47页pdf

专知会员服务

162+阅读 · 2020年2月27日

【O'Reilly AI Conference 2019】部署大规模分布式数据（How to deploy large-scale distributed data analytics and machine learning on containers (sponsored by HPE))，HPE BlueData，Thomas Phelan

【O'Reilly AI Conference 2019】部署大规模分布式数据（How to deploy large-scale distributed data analytics and machine learning on containers (sponsored by HPE))，HPE BlueData，Thomas Phelan

专知会员服务

19+阅读 · 2019年11月5日

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

专知

19+阅读 · 2022年10月23日

推荐！【中文版】《人工智能对海军作战的重要性和应用》37页报告：人工智能是美国第三次抵消战略的关键能力

推荐！【中文版】《人工智能对海军作战的重要性和应用》37页报告：人工智能是美国第三次抵消战略的关键能力

专知

64+阅读 · 2022年9月9日

推荐！《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

推荐！《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

专知

63+阅读 · 2022年9月8日

最新《可解释机器学习》报告，164页ppt建模阐述XAI进展

最新《可解释机器学习》报告，164页ppt建模阐述XAI进展

专知

10+阅读 · 2022年8月25日

2022最新《数据与机器学习，人工智能报告》

2022最新《数据与机器学习，人工智能报告》

专知

11+阅读 · 2022年2月21日

清华大学、中国人工智能学会联合发布《2019人工智能发展报告》，391页pdf详述进展

清华大学、中国人工智能学会联合发布《2019人工智能发展报告》，391页pdf详述进展

专知

24+阅读 · 2019年12月1日

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

机器之心

20+阅读 · 2019年5月3日

【Science机器人2019子刊AI5篇新论文】不止模仿：通过学习概念的认知程序实现机器人零数据任务迁移

【Science机器人2019子刊AI5篇新论文】不止模仿：通过学习概念的认知程序实现机器人零数据任务迁移

专知

10+阅读 · 2019年1月18日

人工智能已到瓶颈！院士“联名”反深度学习，并指出AI未来发展方向

人工智能已到瓶颈！院士“联名”反深度学习，并指出AI未来发展方向

算法与数学之美

49+阅读 · 2018年12月2日

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

AI研习社

13+阅读 · 2018年6月8日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

基于多存储介质的在线社交网络数据节能存储研究

国家自然科学基金

0+阅读 · 2015年12月31日

大数据背景下面向操作模式的约简算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

云存储系统中节能关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

智能电网环境下地理分布式互联网数据中心的能量成本降低方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

适应于大数据特性的智能存储技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向绿色数据中心的高效能分布式储能技术

国家自然科学基金

1+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

Position Paper: Unlocking the Potential of AI Researchers in Scientific Discovery-What Is Missing?

Arxiv

0+阅读 · 6月15日

AI can help scientists publish less

Arxiv

0+阅读 · 6月11日

Position: Align AI to Our Aspirations, Not Our Flaws

Arxiv

0+阅读 · 6月11日

How Hyper-Datafication Impacts the Sustainability Costs in Frontier AI

Arxiv

0+阅读 · 6月7日

Plateau That Never Comes: When Efficiency Claims in Datacenters and AI Become Greenwashing

Arxiv

0+阅读 · 6月2日

Green Distributed AI Training: Orchestrating Compute Across Renewable-Powered Micro Datacenters

Arxiv

0+阅读 · 5月27日

After the Interface: Relocating Human Agency in the Age of Conversational AI

Arxiv

0+阅读 · 5月14日

Preparing Students for AI-Powered Materials Discovery: A Workflow-Aligned Framework for AI Literacy, Equity, and Scientific Judgment

Arxiv

0+阅读 · 5月10日

How Hyper-Datafication Impacts the Sustainability Costs in Frontier AI

Arxiv

0+阅读 · 5月7日

Data-centric Artificial Intelligence: A Survey

Arxiv

27+阅读 · 2023年3月17日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

2+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

4+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

7+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

4+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

6+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

5+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

3+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

8+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

6+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

9+阅读 · 6月22日

相关VIP内容

【ETZH博士论文】数据驱动的人工智能

【ETZH博士论文】数据驱动的人工智能

专知会员服务

41+阅读 · 2025年2月21日

【剑桥大学博士论文】使用Dataflow实现可维护和可解释的AI系统，189页pdf

【剑桥大学博士论文】使用Dataflow实现可维护和可解释的AI系统，189页pdf

专知会员服务

34+阅读 · 2024年5月8日

【2023新书】构建负责任的AI算法：透明度、公平性、安全性、隐私和稳健性的框架，196页pdf

【2023新书】构建负责任的AI算法：透明度、公平性、安全性、隐私和稳健性的框架，196页pdf

专知会员服务

70+阅读 · 2023年8月20日

什么是Data-Centric AI？Rice大学最新《以数据为中心的人工智能》研究综述，38页pdf全面阐述DCAI技术体系

什么是Data-Centric AI？Rice大学最新《以数据为中心的人工智能》研究综述，38页pdf全面阐述DCAI技术体系

专知会员服务

76+阅读 · 2023年3月21日

《负责任人工智能：概念、批判观点和信息系统研究议程》2022.12最新论文，挪威科技大学等

《负责任人工智能：概念、批判观点和信息系统研究议程》2022.12最新论文，挪威科技大学等

专知会员服务

26+阅读 · 2023年1月18日

【ICLR 2022】MIT论文解读：谈到人工智能，我们可以抛弃数据集吗？基于ML创建合成数据，Generative Models As A Data Source For Multiview Representation Learning

【ICLR 2022】MIT论文解读：谈到人工智能，我们可以抛弃数据集吗？基于ML创建合成数据，Generative Models As A Data Source For Multiview Representation Learning

专知会员服务

41+阅读 · 2022年3月15日

IDC百度发布首份《人工智能助力中国“双碳”目标达成2021》白皮书（附下载），47页pdf

IDC百度发布首份《人工智能助力中国“双碳”目标达成2021》白皮书（附下载），47页pdf

专知会员服务

97+阅读 · 2022年2月25日

美智库最新报告：小数据人工智能潜力不可估量，39页pdf

美智库最新报告：小数据人工智能潜力不可估量，39页pdf

专知会员服务

75+阅读 · 2021年11月18日

2019年人工智能发展白皮书，中国科学院大数据挖掘与知识管理重点实验室，附47页pdf

2019年人工智能发展白皮书，中国科学院大数据挖掘与知识管理重点实验室，附47页pdf

专知会员服务

162+阅读 · 2020年2月27日

【O'Reilly AI Conference 2019】部署大规模分布式数据（How to deploy large-scale distributed data analytics and machine learning on containers (sponsored by HPE))，HPE BlueData，Thomas Phelan

【O'Reilly AI Conference 2019】部署大规模分布式数据（How to deploy large-scale distributed data analytics and machine learning on containers (sponsored by HPE))，HPE BlueData，Thomas Phelan

专知会员服务

19+阅读 · 2019年11月5日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

专知

19+阅读 · 2022年10月23日

推荐！【中文版】《人工智能对海军作战的重要性和应用》37页报告：人工智能是美国第三次抵消战略的关键能力

推荐！【中文版】《人工智能对海军作战的重要性和应用》37页报告：人工智能是美国第三次抵消战略的关键能力

专知

64+阅读 · 2022年9月9日

推荐！《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

推荐！《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

专知

63+阅读 · 2022年9月8日

最新《可解释机器学习》报告，164页ppt建模阐述XAI进展

最新《可解释机器学习》报告，164页ppt建模阐述XAI进展

专知

10+阅读 · 2022年8月25日

2022最新《数据与机器学习，人工智能报告》

2022最新《数据与机器学习，人工智能报告》

专知

11+阅读 · 2022年2月21日

清华大学、中国人工智能学会联合发布《2019人工智能发展报告》，391页pdf详述进展

清华大学、中国人工智能学会联合发布《2019人工智能发展报告》，391页pdf详述进展

专知

24+阅读 · 2019年12月1日

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

机器之心

20+阅读 · 2019年5月3日

【Science机器人2019子刊AI5篇新论文】不止模仿：通过学习概念的认知程序实现机器人零数据任务迁移

【Science机器人2019子刊AI5篇新论文】不止模仿：通过学习概念的认知程序实现机器人零数据任务迁移

专知

10+阅读 · 2019年1月18日

人工智能已到瓶颈！院士“联名”反深度学习，并指出AI未来发展方向

人工智能已到瓶颈！院士“联名”反深度学习，并指出AI未来发展方向

算法与数学之美

49+阅读 · 2018年12月2日

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

AI研习社

13+阅读 · 2018年6月8日

相关论文

Position Paper: Unlocking the Potential of AI Researchers in Scientific Discovery-What Is Missing?

Arxiv

0+阅读 · 6月15日

AI can help scientists publish less

Arxiv

0+阅读 · 6月11日

Position: Align AI to Our Aspirations, Not Our Flaws

Arxiv

0+阅读 · 6月11日

How Hyper-Datafication Impacts the Sustainability Costs in Frontier AI

Arxiv

0+阅读 · 6月7日

Plateau That Never Comes: When Efficiency Claims in Datacenters and AI Become Greenwashing

Arxiv

0+阅读 · 6月2日

Green Distributed AI Training: Orchestrating Compute Across Renewable-Powered Micro Datacenters

Arxiv

0+阅读 · 5月27日

After the Interface: Relocating Human Agency in the Age of Conversational AI

Arxiv

0+阅读 · 5月14日

Preparing Students for AI-Powered Materials Discovery: A Workflow-Aligned Framework for AI Literacy, Equity, and Scientific Judgment

Arxiv

0+阅读 · 5月10日

How Hyper-Datafication Impacts the Sustainability Costs in Frontier AI

Arxiv

0+阅读 · 5月7日

Data-centric Artificial Intelligence: A Survey

Arxiv

27+阅读 · 2023年3月17日

相关基金

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

基于多存储介质的在线社交网络数据节能存储研究

国家自然科学基金

0+阅读 · 2015年12月31日

大数据背景下面向操作模式的约简算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

云存储系统中节能关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

智能电网环境下地理分布式互联网数据中心的能量成本降低方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

适应于大数据特性的智能存储技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向绿色数据中心的高效能分布式储能技术

国家自然科学基金

1+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员