Generative AI Training and Copyright Law - 专知论文

会员服务 ·

0

TDM · 生成式人工智能 · 人工智能 · 网络爬虫 · 人工智能模型 ·

Generative AI Training and Copyright Law

翻译：生成式人工智能训练与版权法

Sebastian Stober,Tim W. Dornis

from arxiv, submitted as an overview article to the Transactions of the International Society for Music Information Retrieval

Training generative AI models requires extensive amounts of data. A common practice is to collect such data through web scraping. Yet, much of what has been and is collected is copyright protected. Its use may be copyright infringement. In the USA, AI developers rely on "fair use" and in Europe, the prevailing view is that the exception for "Text and Data Mining" (TDM) applies. In a recent interdisciplinary tandem-study, we have argued in detail that this is actually not the case because generative AI training fundamentally differs from TDM. In this article, we share our main findings and the implications for both public and corporate research on generative models. We further discuss how the phenomenon of training data memorization leads to copyright issues independently from the "fair use" and TDM exceptions. Finally, we outline how the ISMIR could contribute to the ongoing discussion about fair practices with respect to generative AI that satisfy all stakeholders.

翻译：训练生成式人工智能模型需要大量数据。通常的做法是通过网络爬虫收集此类数据。然而，已收集和正在收集的数据大多受版权保护。其使用可能构成版权侵权。在美国，人工智能开发者依赖“合理使用”原则；而在欧洲，主流观点认为“文本与数据挖掘”（TDM）例外条款适用。在近期一项跨学科串联研究中，我们详细论证了实际情况并非如此，因为生成式人工智能训练在根本上不同于TDM。本文中，我们分享了主要研究发现及其对生成式模型的公共研究和企业研究的影响。我们进一步探讨了训练数据记忆现象如何独立于“合理使用”和TDM例外条款引发版权问题。最后，我们概述了国际音乐信息检索学会（ISMIR）如何为推动关于满足所有利益相关者需求的生成式人工智能公平实践的持续讨论作出贡献。

0

相关内容

TDM

《生成式人工智能教学指南》美空军技术学院最新377页

《生成式人工智能教学指南》美空军技术学院最新377页

专知会员服务

83+阅读 · 2025年4月20日

中文版 | 生成式人工智能（GenAI）：概览、议题与美国国会考量

中文版 | 生成式人工智能（GenAI）：概览、议题与美国国会考量

专知会员服务

24+阅读 · 2025年4月15日

【新书】生成式人工智能：概念与应用

【新书】生成式人工智能：概念与应用

专知会员服务

47+阅读 · 2025年3月18日

【新书】合成数据与生成式人工智能

【新书】合成数据与生成式人工智能

专知会员服务

47+阅读 · 2025年2月9日

【新书】生成式人工智能模型，419页pdf

【新书】生成式人工智能模型，419页pdf

专知会员服务

121+阅读 · 2024年9月3日

大模型如何遗忘不良知识？最新《生成式人工智能中的机器遗忘》综述

大模型如何遗忘不良知识？最新《生成式人工智能中的机器遗忘》综述

专知会员服务

24+阅读 · 2024年8月1日

《生成式人工智能模型：机遇与风险》

《生成式人工智能模型：机遇与风险》

专知会员服务

79+阅读 · 2024年4月22日

生成式人工智能预训练和优化训练数据安全规范

生成式人工智能预训练和优化训练数据安全规范

专知会员服务

49+阅读 · 2024年4月11日

从AIGC到AIGS？南洋理工等最新《人工智能生成的图像作为数据源》综述，详述AI生成数据集方法

从AIGC到AIGS？南洋理工等最新《人工智能生成的图像作为数据源》综述，详述AI生成数据集方法

专知会员服务

68+阅读 · 2023年10月5日

联合国教科文组织发布《生成式AI与教育未来》应用指南，48页pdf

联合国教科文组织发布《生成式AI与教育未来》应用指南，48页pdf

专知会员服务

49+阅读 · 2023年9月13日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

重磅！人工智能生成内容（AIGC）白皮书（2022年）发布，64页pdf

重磅！人工智能生成内容（AIGC）白皮书（2022年）发布，64页pdf

专知

18+阅读 · 2022年9月3日

中国人工智能产业知识产权白皮书（2021）（附报告），519页pdf

中国人工智能产业知识产权白皮书（2021）（附报告），519页pdf

专知

11+阅读 · 2022年2月12日

【新书】机器学习算法，模型与应用，154页pdf

【新书】机器学习算法，模型与应用，154页pdf

专知

24+阅读 · 2022年1月20日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

GAN新书《生成式深度学习》Generative Deep Learning，附379页全文PDF

GAN新书《生成式深度学习》Generative Deep Learning，附379页全文PDF

专知

96+阅读 · 2019年9月30日

视频生成的前沿论文，看我们推荐的7篇就够了

视频生成的前沿论文，看我们推荐的7篇就够了

人工智能前沿讲习班

34+阅读 · 2018年12月30日

基于深度学习的文本生成【附217页PPT下载】

基于深度学习的文本生成【附217页PPT下载】

专知

35+阅读 · 2018年11月24日

AI版权征文 | 日本人工智能发展及著作权问题上的选择与纠结（上篇）

AI版权征文 | 日本人工智能发展及著作权问题上的选择与纠结（上篇）

百度公共政策研究院

10+阅读 · 2018年11月1日

AI 经典书单 | 人工智能学习该读哪些书

AI 经典书单 | 人工智能学习该读哪些书

七月在线实验室

35+阅读 · 2018年1月16日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

数据分析算法的融合与人才培养

国家自然科学基金

7+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

多尺度NED/DEM生成的数字综合理论和关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

How Generative AI Disrupts Search: An Empirical Study of Google Search, Gemini, and AI Overviews

Arxiv

0+阅读 · 4月30日

Stand-Alone Complex or Vibercrime? Exploring the adoption and innovation of GenAI tools, coding assistants, and agents within cybercrime ecosystems

Arxiv

0+阅读 · 3月31日

Training for Technology: Adoption and Productive Use of Generative AI in Legal Analysis

Arxiv

0+阅读 · 3月31日

Beyond Banning AI: A First Look at GenAI Governance in Open Source Software Communities

Arxiv

0+阅读 · 3月27日

Readers Prefer Outputs of AI Trained on Copyrighted Books over Expert Human Writers

Arxiv

0+阅读 · 3月17日

AI-Generated Figures in Academic Publishing: Policies, Tools, and Practical Guidelines

Arxiv

0+阅读 · 3月17日

Monetizing Generative AI: YouTubers' Collective Knowledge on Earning from Generative AI Content

Arxiv

0+阅读 · 3月10日

Training for Technology: Adoption and Productive Use of Generative AI in Legal Analysis

Arxiv

0+阅读 · 3月5日

GenAI vs. Human Creators: Procurement Mechanism Design in Two-/Three-Layer Markets

Arxiv

0+阅读 · 2月23日

Governance of Generative Artificial Intelligence for Companies

Arxiv

0+阅读 · 2月20日

VIP会员

文章信息

相关主题

生成式人工智能

人工智能模型

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

3+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

4+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

6+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

6+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

21+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

《生成式人工智能教学指南》美空军技术学院最新377页

《生成式人工智能教学指南》美空军技术学院最新377页

专知会员服务

83+阅读 · 2025年4月20日

中文版 | 生成式人工智能（GenAI）：概览、议题与美国国会考量

中文版 | 生成式人工智能（GenAI）：概览、议题与美国国会考量

专知会员服务

24+阅读 · 2025年4月15日

【新书】生成式人工智能：概念与应用

【新书】生成式人工智能：概念与应用

专知会员服务

47+阅读 · 2025年3月18日

【新书】合成数据与生成式人工智能

【新书】合成数据与生成式人工智能

专知会员服务

47+阅读 · 2025年2月9日

【新书】生成式人工智能模型，419页pdf

【新书】生成式人工智能模型，419页pdf

专知会员服务

121+阅读 · 2024年9月3日

大模型如何遗忘不良知识？最新《生成式人工智能中的机器遗忘》综述

大模型如何遗忘不良知识？最新《生成式人工智能中的机器遗忘》综述

专知会员服务

24+阅读 · 2024年8月1日

《生成式人工智能模型：机遇与风险》

《生成式人工智能模型：机遇与风险》

专知会员服务

79+阅读 · 2024年4月22日

生成式人工智能预训练和优化训练数据安全规范

生成式人工智能预训练和优化训练数据安全规范

专知会员服务

49+阅读 · 2024年4月11日

从AIGC到AIGS？南洋理工等最新《人工智能生成的图像作为数据源》综述，详述AI生成数据集方法

从AIGC到AIGS？南洋理工等最新《人工智能生成的图像作为数据源》综述，详述AI生成数据集方法

专知会员服务

68+阅读 · 2023年10月5日

联合国教科文组织发布《生成式AI与教育未来》应用指南，48页pdf

联合国教科文组织发布《生成式AI与教育未来》应用指南，48页pdf

专知会员服务

49+阅读 · 2023年9月13日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

重磅！人工智能生成内容（AIGC）白皮书（2022年）发布，64页pdf

重磅！人工智能生成内容（AIGC）白皮书（2022年）发布，64页pdf

专知

18+阅读 · 2022年9月3日

中国人工智能产业知识产权白皮书（2021）（附报告），519页pdf

中国人工智能产业知识产权白皮书（2021）（附报告），519页pdf

专知

11+阅读 · 2022年2月12日

【新书】机器学习算法，模型与应用，154页pdf

【新书】机器学习算法，模型与应用，154页pdf

专知

24+阅读 · 2022年1月20日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

GAN新书《生成式深度学习》Generative Deep Learning，附379页全文PDF

GAN新书《生成式深度学习》Generative Deep Learning，附379页全文PDF

专知

96+阅读 · 2019年9月30日

视频生成的前沿论文，看我们推荐的7篇就够了

视频生成的前沿论文，看我们推荐的7篇就够了

人工智能前沿讲习班

34+阅读 · 2018年12月30日

基于深度学习的文本生成【附217页PPT下载】

基于深度学习的文本生成【附217页PPT下载】

专知

35+阅读 · 2018年11月24日

AI版权征文 | 日本人工智能发展及著作权问题上的选择与纠结（上篇）

AI版权征文 | 日本人工智能发展及著作权问题上的选择与纠结（上篇）

百度公共政策研究院

10+阅读 · 2018年11月1日

AI 经典书单 | 人工智能学习该读哪些书

AI 经典书单 | 人工智能学习该读哪些书

七月在线实验室

35+阅读 · 2018年1月16日

相关论文

How Generative AI Disrupts Search: An Empirical Study of Google Search, Gemini, and AI Overviews

Arxiv

0+阅读 · 4月30日

Stand-Alone Complex or Vibercrime? Exploring the adoption and innovation of GenAI tools, coding assistants, and agents within cybercrime ecosystems

Arxiv

0+阅读 · 3月31日

Training for Technology: Adoption and Productive Use of Generative AI in Legal Analysis

Arxiv

0+阅读 · 3月31日

Beyond Banning AI: A First Look at GenAI Governance in Open Source Software Communities

Arxiv

0+阅读 · 3月27日

Readers Prefer Outputs of AI Trained on Copyrighted Books over Expert Human Writers

Arxiv

0+阅读 · 3月17日

AI-Generated Figures in Academic Publishing: Policies, Tools, and Practical Guidelines

Arxiv

0+阅读 · 3月17日

Monetizing Generative AI: YouTubers' Collective Knowledge on Earning from Generative AI Content

Arxiv

0+阅读 · 3月10日

Training for Technology: Adoption and Productive Use of Generative AI in Legal Analysis

Arxiv

0+阅读 · 3月5日

GenAI vs. Human Creators: Procurement Mechanism Design in Two-/Three-Layer Markets

Arxiv

0+阅读 · 2月23日

Governance of Generative Artificial Intelligence for Companies

Arxiv

0+阅读 · 2月20日

相关基金

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

数据分析算法的融合与人才培养

国家自然科学基金

7+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

多尺度NED/DEM生成的数字综合理论和关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员