Large-scale data has fuelled the success of frontier artificial intelligence (AI) models over the past decade. This expansion has relied on sustained efforts by large technology corporations to aggregate and curate internet-scale datasets. In this work, we examine the environmental, social, and economic costs of large-scale data in AI through a sustainability lens. We argue that the field is shifting from building models from data to actively creating data for building models. We characterise this transition as hyper-datafication, which marks a critical juncture for the future of frontier AI and its societal impacts. To quantify and contextualise data-related costs, we analyse approximately 550,000 datasets from the Hugging Face Hub, focusing on dataset growth, storage-related energy consumption and carbon footprint, and societal representation using language data. We complement this analysis with qualitative responses from data workers in Kenya to examine the labour involved, including direct employment by big tech corporations and exposure to graphic content. We further draw on external data sources to substantiate our findings by illustrating the global disparity in data centre infrastructure. Our analyses reveal that hyper-datafication drives substantial and growing environmental costs while systematically redistributing labour risks and representational harms toward the Global South. Thus, we propose Data PROOFS recommendations spanning provenance, resource awareness, ownership, openness, frugality, and standards to mitigate these costs. Our work aims to make visible the often-overlooked costs of data that underpin frontier AI and to stimulate broader debate within the research community and beyond.


翻译:大规模数据在过去十年中推动了前沿人工智能模型的成功。这种扩展依赖于大型科技公司持续努力聚合和整理互联网规模的数据集。本研究通过可持续性视角审视人工智能中大规模数据的环境、社会和经济成本。我们认为该领域正从基于数据构建模型转向主动创建数据以构建模型,并将这一转变特征化为"超数据化",这标志着前沿人工智能及其社会影响的关键转折点。为量化并背景化数据相关成本,我们分析了Hugging Face Hub上的约55万个数据集,重点关注数据集增长、存储相关能耗与碳足迹,以及通过语言数据体现的社会代表性。我们通过肯尼亚数据工作者的定性反馈补充分析,考察其中涉及的劳动力问题,包括受雇于大型科技公司的直接就业及接触露骨内容的情况。进一步借助外部数据源,通过展示数据中心基础设施的全球分布差异来佐证研究结论。分析表明,超数据化在推动环境成本大幅增长的同时,系统性地将劳动力风险与表征危害重新分配至全球南方。为此,我们提出涵盖溯源、资源意识、所有权、开放性、节约性与标准化六维度的"数据溯源"建议以缓解这些成本。本研究旨在揭示支撑前沿人工智能却常被忽视的数据成本,并激发学术界及更广泛领域的深入讨论。

0
下载
关闭预览

相关内容

前沿人工智能趋势报告(Frontier AI Trends Report)
专知会员服务
39+阅读 · 2025年12月20日
【ETZH博士论文】数据驱动的人工智能
专知会员服务
41+阅读 · 2025年2月21日
《人工智能对传统人工情报分析的影响》最新报告
专知会员服务
55+阅读 · 2024年10月10日
可视化与人工智能交叉研究综述
专知会员服务
72+阅读 · 2021年11月19日
美智库最新报告:小数据人工智能潜力不可估量,39页pdf
专知会员服务
75+阅读 · 2021年11月18日
人工智能模型数据泄露的攻击与防御研究综述
专知会员服务
77+阅读 · 2021年3月31日
数据受限条件下的多模态处理技术综述
专知
22+阅读 · 2022年7月16日
Gartner 报告:人工智能的现状与未来
InfoQ
14+阅读 · 2019年11月29日
智能交通大数据最新论文综述-附PDF下载
专知
22+阅读 · 2019年1月21日
【智能装备】人工智能对装备制造业的影响分析
产业智能官
10+阅读 · 2018年6月9日
人工智能对网络空间安全的影响
走向智能论坛
21+阅读 · 2018年6月7日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月31日
Arxiv
27+阅读 · 2023年3月17日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
9+阅读 · 6月15日
相关VIP内容
前沿人工智能趋势报告(Frontier AI Trends Report)
专知会员服务
39+阅读 · 2025年12月20日
【ETZH博士论文】数据驱动的人工智能
专知会员服务
41+阅读 · 2025年2月21日
《人工智能对传统人工情报分析的影响》最新报告
专知会员服务
55+阅读 · 2024年10月10日
可视化与人工智能交叉研究综述
专知会员服务
72+阅读 · 2021年11月19日
美智库最新报告:小数据人工智能潜力不可估量,39页pdf
专知会员服务
75+阅读 · 2021年11月18日
人工智能模型数据泄露的攻击与防御研究综述
专知会员服务
77+阅读 · 2021年3月31日
相关基金
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员