Copyright enforcement rests on an evidentiary bargain: a plaintiff must show both the defendant's access to the work and substantial similarity in the challenged output. That bargain comes under strain when AI systems are trained through multi-generational pipelines with recursive synthetic data. As successive models are tuned on the outputs of its predecessors, any copyrighted material absorbed by an early model is diffused into deeper statistical abstractions. The result is an evidentiary blind spot where overlaps that emerge look coincidental, while the chain of provenance is too attenuated to trace. These conditions are ripe for "copyright laundering"--the use of multi-generational synthetic pipelines, an "AI Ouroboros," to render traditional proof of infringement impracticable. This Article adapts the "fruit of the poisonous tree" (FOPT) principle to propose a AI-FOPT standard: if a foundational AI model's training is adjudged infringing (either for unlawful sourcing or for non-transformative ingestion that fails fair-use), then subsequent AI models principally derived from the foundational model's outputs or distilled weights carry a rebuttable presumption of taint. The burden shifts to downstream developers--those who control the evidence of provenance--to restore the evidentiary bargain by affirmatively demonstrating a verifiably independent and lawfully sourced lineage or a curative rebuild, without displacing fair-use analysis at the initial ingestion stage. Absent such proof, commercial deployment of tainted models and their outputs is actionable. This Article develops the standard by specifying its trigger, presumption, and concrete rebuttal paths (e.g., independent lineage or verifiable unlearning); addresses counterarguments concerning chilling innovation and fair use; and demonstrates why this lineage-focused approach is both administrable and essential.


翻译:版权执法依赖于一项证据契约:原告必须同时证明被告接触过作品且被质疑的输出内容存在实质性相似。当AI系统通过多代递归合成数据管道进行训练时,这一契约便面临压力。随着后续模型基于其前代模型的输出进行调优,早期模型吸收的任何受版权保护材料都会扩散至更深层的统计抽象中。这导致了一个证据盲区:显现的重叠看似巧合,而溯源链条又过于微弱难以追踪。这些条件为"版权洗白"创造了成熟环境——即利用多代合成数据管道("AI衔尾蛇")使传统的侵权证明变得不可行。本文借鉴"毒树之果"原则,提出AI-FOPT标准:若基础AI模型的训练被判定为侵权(无论是因非法数据来源,还是因不符合合理使用原则的非转换性数据摄取),则主要衍生自该基础模型输出或蒸馏权重的后续AI模型将承担可反驳的污染推定。举证责任转移至下游开发者——即掌握溯源证据的控制方——其需通过积极证明可验证的独立合法来源谱系或治愈性重建来恢复证据契约,且不得取代初始数据摄取阶段的合理使用分析。若无法提供此类证明,受污染模型及其输出的商业部署即构成可诉行为。本文通过明确该标准的触发条件、推定机制及具体反驳路径(如独立谱系或可验证的遗忘机制)来完善该标准;回应关于抑制创新与合理使用的反对意见;并论证这种以谱系为核心的方法为何兼具可操作性及必要性。

0
下载
关闭预览

相关内容

人工智能杂志AI(Artificial Intelligence)是目前公认的发表该领域最新研究成果的主要国际论坛。该期刊欢迎有关AI广泛方面的论文,这些论文构成了整个领域的进步,也欢迎介绍人工智能应用的论文,但重点应该放在新的和新颖的人工智能方法如何提高应用领域的性能,而不是介绍传统人工智能方法的另一个应用。关于应用的论文应该描述一个原则性的解决方案,强调其新颖性,并对正在开发的人工智能技术进行深入的评估。 官网地址:http://dblp.uni-trier.de/db/journals/ai/
Python图像处理,366页pdf,Image Operators Image Processing in Python
Kaggle知识点:伪标签Pseudo Label
AINLP
40+阅读 · 2020年8月9日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员