The Economics of AI Training Data: A Research Agenda - 专知论文

会员服务 ·

0

训练数据 · 情境 · 人工智能 · CVPR 2022 · 计算机科学 ·

The Economics of AI Training Data: A Research Agenda

翻译：人工智能训练数据经济学：研究议程

Hamidah Oderinwale,Anna Kazlauskas

Despite data's central role in AI production, it remains the least understood input. As AI labs exhaust public data and turn to proprietary sources, with deals reaching hundreds of millions of dollars, research across computer science, economics, law, and policy has fragmented. We establish data economics as a coherent field through three contributions. First, we characterize data's distinctive properties -- nonrivalry, context dependence, and emergent rivalry through contamination -- and trace historical precedents for market formation in commodities such as oil and grain. Second, we present systematic documentation of AI training data deals from 2020 to 2025, revealing persistent market fragmentation, five distinct pricing mechanisms (from per-unit licensing to commissioning), and that most deals exclude original creators from compensation. Third, we propose a formal hierarchy of exchangeable data units (token, record, dataset, corpus, stream) and argue for data's explicit representation in production functions. Building on these foundations, we outline four open research problems foundational to data economics: measuring context-dependent value, balancing governance with privacy, estimating data's contribution to production, and designing mechanisms for heterogeneous, compositional goods.

翻译：尽管数据在人工智能生产中扮演核心角色，它仍是最不被理解的投入要素。随着人工智能研究室耗尽公开数据并转向专有数据源——相关交易金额已达数亿美元——计算机科学、经济学、法律和政策领域的研究呈现碎片化态势。我们通过三项贡献将数据经济学确立为一个连贯的研究领域。首先，我们刻画了数据的独特属性（非竞争性、情境依赖性和通过污染产生的涌现竞争性），并追溯了石油、谷物等大宗商品市场形成的历史先例。其次，我们系统性地记录了2020至2025年间的人工智能训练数据交易，揭示了持续的市场碎片化、五种不同的定价机制（从按单位许可到委托定制），以及大多数交易将原始创作者排除在补偿之外。第三，我们提出了一套正式的可交换数据单元层级体系（令牌、记录、数据集、语料库、数据流），并论证了数据在生产函数中应具有明确的表征。基于这些基础，我们勾勒出数据经济学中四个基础性的开放研究问题：衡量情境依赖性价值、平衡治理与隐私、估算数据对生产的贡献、以及设计针对异质性与组合性商品的机制。

0

相关内容

训练数据

《人工智能/机器学习》AI是一个千载难逢的商业和国防游戏规则改变者，斯坦福26页报告

《人工智能/机器学习》AI是一个千载难逢的商业和国防游戏规则改变者，斯坦福26页报告

专知会员服务

42+阅读 · 2023年8月29日

什么是Data-Centric AI？Rice大学最新《以数据为中心的人工智能》研究综述，38页pdf全面阐述DCAI技术体系

什么是Data-Centric AI？Rice大学最新《以数据为中心的人工智能》研究综述，38页pdf全面阐述DCAI技术体系

专知会员服务

76+阅读 · 2023年3月21日

《负责任人工智能：概念、批判观点和信息系统研究议程》2022.12最新论文，挪威科技大学等

《负责任人工智能：概念、批判观点和信息系统研究议程》2022.12最新论文，挪威科技大学等

专知会员服务

26+阅读 · 2023年1月18日

可信AI是什么？密歇根最新WWW2022《可信人工智能：一种计算视角》教程，附123页ppt

可信AI是什么？密歇根最新WWW2022《可信人工智能：一种计算视角》教程，附123页ppt

专知会员服务

89+阅读 · 2022年4月29日

人工智能赋能教育专题《人工智能 + 教育：关键技术及典型应用场景》，北京师范大学

人工智能赋能教育专题《人工智能 + 教育：关键技术及典型应用场景》，北京师范大学

专知会员服务

62+阅读 · 2022年3月24日

数据与机器学习，人工智能报告

数据与机器学习，人工智能报告

专知会员服务

100+阅读 · 2022年2月21日

美智库最新报告：小数据人工智能潜力不可估量，39页pdf

美智库最新报告：小数据人工智能潜力不可估量，39页pdf

专知会员服务

75+阅读 · 2021年11月18日

经济学中的数据科学，Data Science in Economics，附22页pdf

经济学中的数据科学，Data Science in Economics，附22页pdf

专知会员服务

36+阅读 · 2020年4月1日

2019年人工智能发展白皮书，中国科学院大数据挖掘与知识管理重点实验室，附47页pdf

2019年人工智能发展白皮书，中国科学院大数据挖掘与知识管理重点实验室，附47页pdf

专知会员服务

162+阅读 · 2020年2月27日

【哥伦比亚大学】经济AI优化课程，Economics, AI, and Optimization

【哥伦比亚大学】经济AI优化课程，Economics, AI, and Optimization

专知会员服务

53+阅读 · 2020年2月15日

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

专知

19+阅读 · 2022年10月23日

推荐！《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

推荐！《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

专知

63+阅读 · 2022年9月8日

推荐！《关于美国海军陆战队情报工作的人工智能（AI）战略和设计》美国海军研究生院131页报告

推荐！《关于美国海军陆战队情报工作的人工智能（AI）战略和设计》美国海军研究生院131页报告

专知

62+阅读 · 2022年9月7日

【实用书】数据科学和机器学习:数学和统计方法，533页pdf，Python手把手带你掌握机器学习

【实用书】数据科学和机器学习:数学和统计方法，533页pdf，Python手把手带你掌握机器学习

专知

20+阅读 · 2022年5月28日

2022最新《数据与机器学习，人工智能报告》

2022最新《数据与机器学习，人工智能报告》

专知

11+阅读 · 2022年2月21日

当区块链与人工智能相遇，会有怎样火花？这篇23页《Blockchain for AI》综述论文告诉你（附下载）

当区块链与人工智能相遇，会有怎样火花？这篇23页《Blockchain for AI》综述论文告诉你（附下载）

专知

18+阅读 · 2019年1月20日

【人工智能】智能计算概述、神经网络计算、机器学习计算、遗传算法、模糊计算、群智能计算

【人工智能】智能计算概述、神经网络计算、机器学习计算、遗传算法、模糊计算、群智能计算

产业智能官

15+阅读 · 2019年1月8日

最全数据科学学习资源：Python、线性代数、机器学习...

最全数据科学学习资源：Python、线性代数、机器学习...

人工智能头条

12+阅读 · 2018年5月14日

AI 经典书单 | 人工智能学习该读哪些书

AI 经典书单 | 人工智能学习该读哪些书

七月在线实验室

35+阅读 · 2018年1月16日

【深度学习】深度学习的核心：掌握训练数据的方法

【深度学习】深度学习的核心：掌握训练数据的方法

产业智能官

12+阅读 · 2018年1月14日

基于深度学习技术的视神经系统研究

国家自然科学基金

7+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

适应于大数据特性的智能存储技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据分析算法的融合与人才培养

国家自然科学基金

7+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

面向经济复杂性的行为建模与计算实验及应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

大数据商业模式、产业链治理及公共政策研究

国家自然科学基金

12+阅读 · 2013年12月31日

The economic alignment problem of artificial intelligence

Arxiv

0+阅读 · 4月29日

Information-Theoretic Measures in AI: A Practical Decision Guide

Arxiv

0+阅读 · 4月26日

Fast and Forgettable: A Controlled Study of Novices' Performance, Learning, Workload, and Emotion in AI-Assisted and Human Pair Programming Paradigms

Arxiv

0+阅读 · 4月20日

Reckoning with the Political Economy of AI: Avoiding Decoys in Pursuit of Accountability

Arxiv

0+阅读 · 4月20日

Reckoning with the Political Economy of AI: Avoiding Decoys in Pursuit of Accountability

Arxiv

0+阅读 · 4月17日

Generative AI Spotlights the Human Core of Data Science: Implications for Education

Arxiv

0+阅读 · 4月2日

Efficient Human-in-the-Loop Active Learning: A Novel Framework for Data Labeling in AI Systems

Arxiv

0+阅读 · 3月29日

Orchestrating Human-AI Software Delivery: A Retrospective Longitudinal Field Study of Three Software Modernization Programs

Arxiv

0+阅读 · 3月20日

A Comprehensive Review on Financial Explainable AI

Arxiv

12+阅读 · 2023年9月21日

Data-centric Artificial Intelligence: A Survey

Arxiv

27+阅读 · 2023年3月17日

VIP会员

文章信息

相关主题

计算机科学

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

1+阅读 · 今天15:03

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

0+阅读 · 今天14:31

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

0+阅读 · 今天14:29

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

12+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

4+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

7+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

8+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

11+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

12+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

8+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

21+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

10+阅读 · 6月17日

相关VIP内容

《人工智能/机器学习》AI是一个千载难逢的商业和国防游戏规则改变者，斯坦福26页报告

《人工智能/机器学习》AI是一个千载难逢的商业和国防游戏规则改变者，斯坦福26页报告

专知会员服务

42+阅读 · 2023年8月29日

什么是Data-Centric AI？Rice大学最新《以数据为中心的人工智能》研究综述，38页pdf全面阐述DCAI技术体系

什么是Data-Centric AI？Rice大学最新《以数据为中心的人工智能》研究综述，38页pdf全面阐述DCAI技术体系

专知会员服务

76+阅读 · 2023年3月21日

《负责任人工智能：概念、批判观点和信息系统研究议程》2022.12最新论文，挪威科技大学等

《负责任人工智能：概念、批判观点和信息系统研究议程》2022.12最新论文，挪威科技大学等

专知会员服务

26+阅读 · 2023年1月18日

可信AI是什么？密歇根最新WWW2022《可信人工智能：一种计算视角》教程，附123页ppt

可信AI是什么？密歇根最新WWW2022《可信人工智能：一种计算视角》教程，附123页ppt

专知会员服务

89+阅读 · 2022年4月29日

人工智能赋能教育专题《人工智能 + 教育：关键技术及典型应用场景》，北京师范大学

人工智能赋能教育专题《人工智能 + 教育：关键技术及典型应用场景》，北京师范大学

专知会员服务

62+阅读 · 2022年3月24日

数据与机器学习，人工智能报告

数据与机器学习，人工智能报告

专知会员服务

100+阅读 · 2022年2月21日

美智库最新报告：小数据人工智能潜力不可估量，39页pdf

美智库最新报告：小数据人工智能潜力不可估量，39页pdf

专知会员服务

75+阅读 · 2021年11月18日

经济学中的数据科学，Data Science in Economics，附22页pdf

经济学中的数据科学，Data Science in Economics，附22页pdf

专知会员服务

36+阅读 · 2020年4月1日

2019年人工智能发展白皮书，中国科学院大数据挖掘与知识管理重点实验室，附47页pdf

2019年人工智能发展白皮书，中国科学院大数据挖掘与知识管理重点实验室，附47页pdf

专知会员服务

162+阅读 · 2020年2月27日

【哥伦比亚大学】经济AI优化课程，Economics, AI, and Optimization

【哥伦比亚大学】经济AI优化课程，Economics, AI, and Optimization

专知会员服务

53+阅读 · 2020年2月15日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

专知

19+阅读 · 2022年10月23日

推荐！《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

推荐！《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

专知

63+阅读 · 2022年9月8日

推荐！《关于美国海军陆战队情报工作的人工智能（AI）战略和设计》美国海军研究生院131页报告

推荐！《关于美国海军陆战队情报工作的人工智能（AI）战略和设计》美国海军研究生院131页报告

专知

62+阅读 · 2022年9月7日

【实用书】数据科学和机器学习:数学和统计方法，533页pdf，Python手把手带你掌握机器学习

【实用书】数据科学和机器学习:数学和统计方法，533页pdf，Python手把手带你掌握机器学习

专知

20+阅读 · 2022年5月28日

2022最新《数据与机器学习，人工智能报告》

2022最新《数据与机器学习，人工智能报告》

专知

11+阅读 · 2022年2月21日

当区块链与人工智能相遇，会有怎样火花？这篇23页《Blockchain for AI》综述论文告诉你（附下载）

当区块链与人工智能相遇，会有怎样火花？这篇23页《Blockchain for AI》综述论文告诉你（附下载）

专知

18+阅读 · 2019年1月20日

【人工智能】智能计算概述、神经网络计算、机器学习计算、遗传算法、模糊计算、群智能计算

【人工智能】智能计算概述、神经网络计算、机器学习计算、遗传算法、模糊计算、群智能计算

产业智能官

15+阅读 · 2019年1月8日

最全数据科学学习资源：Python、线性代数、机器学习...

最全数据科学学习资源：Python、线性代数、机器学习...

人工智能头条

12+阅读 · 2018年5月14日

AI 经典书单 | 人工智能学习该读哪些书

AI 经典书单 | 人工智能学习该读哪些书

七月在线实验室

35+阅读 · 2018年1月16日

【深度学习】深度学习的核心：掌握训练数据的方法

【深度学习】深度学习的核心：掌握训练数据的方法

产业智能官

12+阅读 · 2018年1月14日

相关论文

The economic alignment problem of artificial intelligence

Arxiv

0+阅读 · 4月29日

Information-Theoretic Measures in AI: A Practical Decision Guide

Arxiv

0+阅读 · 4月26日

Fast and Forgettable: A Controlled Study of Novices' Performance, Learning, Workload, and Emotion in AI-Assisted and Human Pair Programming Paradigms

Arxiv

0+阅读 · 4月20日

Reckoning with the Political Economy of AI: Avoiding Decoys in Pursuit of Accountability

Arxiv

0+阅读 · 4月20日

Reckoning with the Political Economy of AI: Avoiding Decoys in Pursuit of Accountability

Arxiv

0+阅读 · 4月17日

Generative AI Spotlights the Human Core of Data Science: Implications for Education

Arxiv

0+阅读 · 4月2日

Efficient Human-in-the-Loop Active Learning: A Novel Framework for Data Labeling in AI Systems

Arxiv

0+阅读 · 3月29日

Orchestrating Human-AI Software Delivery: A Retrospective Longitudinal Field Study of Three Software Modernization Programs

Arxiv

0+阅读 · 3月20日

A Comprehensive Review on Financial Explainable AI

Arxiv

12+阅读 · 2023年9月21日

Data-centric Artificial Intelligence: A Survey

Arxiv

27+阅读 · 2023年3月17日

相关基金

基于深度学习技术的视神经系统研究

国家自然科学基金

7+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

适应于大数据特性的智能存储技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据分析算法的融合与人才培养

国家自然科学基金

7+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

面向经济复杂性的行为建模与计算实验及应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

大数据商业模式、产业链治理及公共政策研究

国家自然科学基金

12+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员