A Sustainable AI Economy Needs Data Deals That Work for Generators - 专知论文

会员服务 ·

0

构建 · 数据生成 · 结构 · 分析 · 数据处理不等式 ·

A Sustainable AI Economy Needs Data Deals That Work for Generators

翻译：构建可持续人工智能经济需要惠及数据生成者的数据协议

Ruoxi Jia,Luis Oala,Wenjie Xiong,Suqin Ge,Jiachen T. Wang,Feiyang Kang,Dawn Song

from arxiv, Published at NeurIPS 2025 (https://neurips.cc/virtual/2025/loc/san-diego/poster/121926)

We argue that the machine learning value chain is structurally unsustainable due to an economic data processing inequality: each state in the data cycle from inputs to model weights to synthetic outputs refines technical signal but strips economic equity from data generators. We show, by analyzing seventy-three public data deals, that the majority of value accrues to aggregators, with documented creator royalties rounding to zero and widespread opacity of deal terms. This is not just an economic welfare concern: as data and its derivatives become economic assets, the feedback loop that sustains current learning algorithms is at risk. We identify three structural faults - missing provenance, asymmetric bargaining power, and non-dynamic pricing - as the operational machinery of this inequality. In our analysis, we trace these problems along the machine learning value chain and propose an Equitable Data-Value Exchange (EDVEX) Framework to enable a minimal market that benefits all participants. Finally, we outline research directions where our community can make concrete contributions to data deals and contextualize our position with related and orthogonal viewpoints.

翻译：我们认为，机器学习价值链在结构上是不可持续的，这源于一种经济数据处理不等式：从输入数据到模型权重再到合成输出的数据循环中，每个阶段虽然提升了技术信号的质量，却剥夺了数据生成者的经济权益。通过对七十三项公开数据协议的分析，我们发现价值主要流向数据聚合方，有记录的内容创作者版税近乎为零，且协议条款普遍缺乏透明度。这不仅是经济福利问题：随着数据及其衍生品成为经济资产，维持当前学习算法的反馈循环正面临风险。我们识别出三个结构性缺陷——溯源机制缺失、议价能力不对等和非动态定价机制——这些构成了不平等现象的运行机制。在分析中，我们沿着机器学习价值链追溯这些问题，并提出"公平数据价值交换"框架，以构建能使所有参与者受益的最小化市场。最后，我们规划了具体的研究方向，供学术共同体在数据协议领域作出实质性贡献，并通过相关及正交观点对我们的立场进行语境化阐释。

0

相关内容

【MIT博士论文】从数据到模型，再回到数据：构建可预测且可靠的机器学习系统”

【MIT博士论文】从数据到模型，再回到数据：构建可预测且可靠的机器学习系统”

专知会员服务

24+阅读 · 2025年6月19日

生成式人工智能在机器人操作中的应用：综述

生成式人工智能在机器人操作中的应用：综述

专知会员服务

30+阅读 · 2025年3月6日

《利用合成数据生成加强军事决策支持》

《利用合成数据生成加强军事决策支持》

专知会员服务

43+阅读 · 2024年12月30日

《可解释人工智能在人工智能辅助决策中的作用综述》

《可解释人工智能在人工智能辅助决策中的作用综述》

专知会员服务

63+阅读 · 2024年1月4日

《人工智能/机器学习》AI是一个千载难逢的商业和国防游戏规则改变者，斯坦福26页报告

《人工智能/机器学习》AI是一个千载难逢的商业和国防游戏规则改变者，斯坦福26页报告

专知会员服务

42+阅读 · 2023年8月29日

人工智能行业专题：AI产业链分析与展望

人工智能行业专题：AI产业链分析与展望

专知会员服务

63+阅读 · 2023年8月24日

人工智能技术应用实践白皮书：数字经济时代，AI加持下的技术与业务创新（附报告）

人工智能技术应用实践白皮书：数字经济时代，AI加持下的技术与业务创新（附报告）

专知会员服务

50+阅读 · 2022年11月7日

如何生成预期数据？埃默里大学等最新《深度学习可控数据生成》综述，52页pdf涵盖346篇文献全面阐述可控生成技术体系

如何生成预期数据？埃默里大学等最新《深度学习可控数据生成》综述，52页pdf涵盖346篇文献全面阐述可控生成技术体系

专知会员服务

40+阅读 · 2022年7月22日

中国数字经济时代人工智能生态白皮书2021,41页pdf

中国数字经济时代人工智能生态白皮书2021,41页pdf

专知会员服务

75+阅读 · 2022年1月27日

美智库最新报告：小数据人工智能潜力不可估量，39页pdf

美智库最新报告：小数据人工智能潜力不可估量，39页pdf

专知会员服务

77+阅读 · 2021年11月18日

推荐！《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

推荐！《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

专知

63+阅读 · 2022年9月8日

最新《可解释机器学习》报告，164页ppt建模阐述XAI进展

最新《可解释机器学习》报告，164页ppt建模阐述XAI进展

专知

10+阅读 · 2022年8月25日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

机器学习必备的数学基础有哪些？

机器学习必备的数学基础有哪些？

人工智能头条

12+阅读 · 2019年10月18日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

【数字孪生】数字孪生是制造业实现“智能+”的技术接口

【数字孪生】数字孪生是制造业实现“智能+”的技术接口

产业智能官

35+阅读 · 2019年4月30日

当区块链与人工智能相遇，会有怎样火花？这篇23页《Blockchain for AI》综述论文告诉你（附下载）

当区块链与人工智能相遇，会有怎样火花？这篇23页《Blockchain for AI》综述论文告诉你（附下载）

专知

18+阅读 · 2019年1月20日

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

AI研习社

13+阅读 · 2018年6月8日

第二章机器学习中的数学基础

第二章机器学习中的数学基础

Datartisan数据工匠

12+阅读 · 2018年4月5日

机器学习必备手册

机器学习必备手册

机器学习研究会

20+阅读 · 2017年10月24日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

适应于大数据特性的智能存储技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据分析算法的融合与人才培养

国家自然科学基金

7+阅读 · 2015年12月31日

大数据环境下协同商务智能构建中的关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据驱动的被动协议测试方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

任意网络中的可分数据处理研究

国家自然科学基金

0+阅读 · 2015年12月31日

大数据背景下的商业模式创新机制研究

国家自然科学基金

5+阅读 · 2014年12月31日

基于agent与众包数据获取服务的企业决策支持关键方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

接力创新中大数据价值的评估与分配研究

国家自然科学基金

2+阅读 · 2014年12月31日

大数据商业模式、产业链治理及公共政策研究

国家自然科学基金

12+阅读 · 2013年12月31日

A feature-stable and explainable machine learning framework for trustworthy decision-making under incomplete clinical data

A feature-stable and explainable machine learning framework for trustworthy decision-making under incomplete clinical data

Arxiv

0+阅读 · 2月19日

The Agent Economy: A Blockchain-Based Foundation for Autonomous AI Agents

Arxiv

0+阅读 · 2月15日

Learning to Adopt Generative AI

Arxiv

0+阅读 · 2月15日

Trustworthy Agentic AI Requires Deterministic Architectural Boundaries

Arxiv

0+阅读 · 2月10日

How Hyper-Datafication Impacts the Sustainability Costs in Frontier AI

Arxiv

0+阅读 · 2月9日

Artificial Intelligence in Open Source Software Engineering: A Foundation for Sustainability

Arxiv

0+阅读 · 2月5日

The Effect of Architecture During Continual Learning

Arxiv

0+阅读 · 1月27日

Explainable AI to Improve Machine Learning Reliability for Industrial Cyber-Physical Systems

Arxiv

0+阅读 · 1月22日

AI-generated data contamination erodes pathological variability and diagnostic reliability

Arxiv

0+阅读 · 1月19日

Data Work in Egypt: Who Are the Workers Behind Artificial Intelligence?

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

数据处理不等式

最新内容

《无人系统互操作性导论——无人系统联合架构（JAUS）》

《无人系统互操作性导论——无人系统联合架构（JAUS）》

专知会员服务

2+阅读 · 40分钟前

美空军新型反无人机部队初探

美空军新型反无人机部队初探

专知会员服务

1+阅读 · 48分钟前

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

专知会员服务

1+阅读 · 今天5:23

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

专知会员服务

1+阅读 · 今天5:11

《防空交战流程的概率建模研究》

《防空交战流程的概率建模研究》

专知会员服务

3+阅读 · 今天5:04

ICML 2026 教程 | 数值优化理论还重要吗？

ICML 2026 教程 | 数值优化理论还重要吗？

专知会员服务

4+阅读 · 7月26日

ICM 2026 | 陶哲轩：人工智能时代的数学

ICM 2026 | 陶哲轩：人工智能时代的数学

专知会员服务

7+阅读 · 7月26日

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

专知会员服务

7+阅读 · 7月26日

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

专知会员服务

9+阅读 · 7月26日

《先进防空系统选型战略框架：基于巴基斯坦的实证启示》

《先进防空系统选型战略框架：基于巴基斯坦的实证启示》

专知会员服务

8+阅读 · 7月26日

《反无人机交战场景下的战斗归零研究》

《反无人机交战场景下的战斗归零研究》

专知会员服务

7+阅读 · 7月26日

霍尔木兹与不对称作战时代：水雷、无人系统与海军力量的重新定义

霍尔木兹与不对称作战时代：水雷、无人系统与海军力量的重新定义

专知会员服务

4+阅读 · 7月26日

博士论文 | 用代码结构感知方法推进代码大模型

博士论文 | 用代码结构感知方法推进代码大模型

专知会员服务

5+阅读 · 7月25日

综述 | 遥感多模态大模型：领域专用还是通用模型？

综述 | 遥感多模态大模型：领域专用还是通用模型？

专知会员服务

5+阅读 · 7月25日

《面向指挥控制训练与实时北约兼容数据分发的战术模拟器》

《面向指挥控制训练与实时北约兼容数据分发的战术模拟器》

专知会员服务

5+阅读 · 7月25日

相关VIP内容

【MIT博士论文】从数据到模型，再回到数据：构建可预测且可靠的机器学习系统”

【MIT博士论文】从数据到模型，再回到数据：构建可预测且可靠的机器学习系统”

专知会员服务

24+阅读 · 2025年6月19日

生成式人工智能在机器人操作中的应用：综述

生成式人工智能在机器人操作中的应用：综述

专知会员服务

30+阅读 · 2025年3月6日

《利用合成数据生成加强军事决策支持》

《利用合成数据生成加强军事决策支持》

专知会员服务

43+阅读 · 2024年12月30日

《可解释人工智能在人工智能辅助决策中的作用综述》

《可解释人工智能在人工智能辅助决策中的作用综述》

专知会员服务

63+阅读 · 2024年1月4日

《人工智能/机器学习》AI是一个千载难逢的商业和国防游戏规则改变者，斯坦福26页报告

《人工智能/机器学习》AI是一个千载难逢的商业和国防游戏规则改变者，斯坦福26页报告

专知会员服务

42+阅读 · 2023年8月29日

人工智能行业专题：AI产业链分析与展望

人工智能行业专题：AI产业链分析与展望

专知会员服务

63+阅读 · 2023年8月24日

人工智能技术应用实践白皮书：数字经济时代，AI加持下的技术与业务创新（附报告）

人工智能技术应用实践白皮书：数字经济时代，AI加持下的技术与业务创新（附报告）

专知会员服务

50+阅读 · 2022年11月7日

如何生成预期数据？埃默里大学等最新《深度学习可控数据生成》综述，52页pdf涵盖346篇文献全面阐述可控生成技术体系

如何生成预期数据？埃默里大学等最新《深度学习可控数据生成》综述，52页pdf涵盖346篇文献全面阐述可控生成技术体系

专知会员服务

40+阅读 · 2022年7月22日

中国数字经济时代人工智能生态白皮书2021,41页pdf

中国数字经济时代人工智能生态白皮书2021,41页pdf

专知会员服务

75+阅读 · 2022年1月27日

美智库最新报告：小数据人工智能潜力不可估量，39页pdf

美智库最新报告：小数据人工智能潜力不可估量，39页pdf

专知会员服务

77+阅读 · 2021年11月18日

热门VIP内容

开通专知VIP会员享更多权益服务

美空军新型反无人机部队初探

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

《无人系统互操作性导论——无人系统联合架构（JAUS）》

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

相关资讯

推荐！《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

推荐！《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

专知

63+阅读 · 2022年9月8日

最新《可解释机器学习》报告，164页ppt建模阐述XAI进展

最新《可解释机器学习》报告，164页ppt建模阐述XAI进展

专知

10+阅读 · 2022年8月25日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

机器学习必备的数学基础有哪些？

机器学习必备的数学基础有哪些？

人工智能头条

12+阅读 · 2019年10月18日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

【数字孪生】数字孪生是制造业实现“智能+”的技术接口

【数字孪生】数字孪生是制造业实现“智能+”的技术接口

产业智能官

35+阅读 · 2019年4月30日

当区块链与人工智能相遇，会有怎样火花？这篇23页《Blockchain for AI》综述论文告诉你（附下载）

当区块链与人工智能相遇，会有怎样火花？这篇23页《Blockchain for AI》综述论文告诉你（附下载）

专知

18+阅读 · 2019年1月20日

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

AI研习社

13+阅读 · 2018年6月8日

第二章机器学习中的数学基础

第二章机器学习中的数学基础

Datartisan数据工匠

12+阅读 · 2018年4月5日

机器学习必备手册

机器学习必备手册

机器学习研究会

20+阅读 · 2017年10月24日

相关论文

A feature-stable and explainable machine learning framework for trustworthy decision-making under incomplete clinical data

A feature-stable and explainable machine learning framework for trustworthy decision-making under incomplete clinical data

Arxiv

0+阅读 · 2月19日

The Agent Economy: A Blockchain-Based Foundation for Autonomous AI Agents

Arxiv

0+阅读 · 2月15日

Learning to Adopt Generative AI

Arxiv

0+阅读 · 2月15日

Trustworthy Agentic AI Requires Deterministic Architectural Boundaries

Arxiv

0+阅读 · 2月10日

How Hyper-Datafication Impacts the Sustainability Costs in Frontier AI

Arxiv

0+阅读 · 2月9日

Artificial Intelligence in Open Source Software Engineering: A Foundation for Sustainability

Arxiv

0+阅读 · 2月5日

The Effect of Architecture During Continual Learning

Arxiv

0+阅读 · 1月27日

Explainable AI to Improve Machine Learning Reliability for Industrial Cyber-Physical Systems

Arxiv

0+阅读 · 1月22日

AI-generated data contamination erodes pathological variability and diagnostic reliability

Arxiv

0+阅读 · 1月19日

Data Work in Egypt: Who Are the Workers Behind Artificial Intelligence?

Arxiv

0+阅读 · 1月13日

相关基金

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

适应于大数据特性的智能存储技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据分析算法的融合与人才培养

国家自然科学基金

7+阅读 · 2015年12月31日

大数据环境下协同商务智能构建中的关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据驱动的被动协议测试方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

任意网络中的可分数据处理研究

国家自然科学基金

0+阅读 · 2015年12月31日

大数据背景下的商业模式创新机制研究

国家自然科学基金

5+阅读 · 2014年12月31日

基于agent与众包数据获取服务的企业决策支持关键方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

接力创新中大数据价值的评估与分配研究

国家自然科学基金

2+阅读 · 2014年12月31日

大数据商业模式、产业链治理及公共政策研究

国家自然科学基金

12+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员