Copyright in AI Pre-Training Data Filtering: Regulatory Landscape and Mitigation Strategies - 专知论文

会员服务 ·

0

训练数据 · 预训练 · 数据过滤 · 工具 · 访问控制 ·

Copyright in AI Pre-Training Data Filtering: Regulatory Landscape and Mitigation Strategies

翻译：人工智能预训练数据过滤中的版权问题：监管格局与缓解策略

Mariia Kyrychenko,Mykyta Mudryi,Markiyan Chaklosh

The rapid advancement of general-purpose AI models has increased concerns about copyright infringement in training data, yet current regulatory frameworks remain predominantly reactive rather than proactive. This paper examines the regulatory landscape of AI training data governance in major jurisdictions, including the EU, the United States, and the Asia-Pacific region. It also identifies critical gaps in enforcement mechanisms that threaten both creator rights and the sustainability of AI development. Through analysis of major cases we identified critical gaps in pre-training data filtering. Existing solutions such as transparency tools, perceptual hashing, and access control mechanisms address only specific aspects of the problem and cannot prevent initial copyright violations. We identify two fundamental challenges: pre-training license collection and content filtering, which faces the impossibility of comprehensive copyright management at scale, and verification mechanisms, which lack tools to confirm filtering prevented infringement. We propose a multilayered filtering pipeline that combines access control, content verification, machine learning classifiers, and continuous database cross-referencing to shift copyright protection from post-training detection to pre-training prevention. This approach offers a pathway toward protecting creator rights while enabling continued AI innovation.

翻译：通用人工智能模型的快速发展加剧了人们对训练数据中版权侵权问题的担忧，然而当前的监管框架仍主要采取被动应对而非主动预防的方式。本文考察了包括欧盟、美国和亚太地区在内的主要司法管辖区在人工智能训练数据治理方面的监管格局，并指出了执法机制中存在的关键缺陷，这些缺陷既威胁创作者权利，也危及人工智能发展的可持续性。通过对主要案例的分析，我们发现了预训练数据过滤环节的关键漏洞。现有的解决方案，如透明度工具、感知哈希和访问控制机制，仅能解决特定方面的问题，无法阻止初始的版权侵权行为。我们识别出两个根本性挑战：一是面临大规模全面版权管理不可行性的预训练许可收集与内容过滤问题；二是缺乏能够确认过滤机制有效防止侵权行为的验证工具。我们提出了一种多层过滤流程，该流程结合了访问控制、内容验证、机器学习分类器以及持续数据库交叉比对，旨在将版权保护从训练后检测转向训练前预防。这一方法为在保护创作者权利的同时持续推进人工智能创新提供了一条可行路径。

0

相关内容

训练数据

《军事领域人工智能网络安全的数字主权控制框架》

《军事领域人工智能网络安全的数字主权控制框架》

专知会员服务

20+阅读 · 2025年9月20日

《领航人工智能前沿：乌克兰冲突对北约在军事人工智能治理作用的启示》最新报告

《领航人工智能前沿：乌克兰冲突对北约在军事人工智能治理作用的启示》最新报告

专知会员服务

27+阅读 · 2025年2月26日

预训练模型的新兴安全与隐私问题：综述与展望

预训练模型的新兴安全与隐私问题：综述与展望

专知会员服务

20+阅读 · 2024年11月13日

生成式人工智能预训练和优化训练数据安全规范

生成式人工智能预训练和优化训练数据安全规范

专知会员服务

49+阅读 · 2024年4月11日

全球生成式人工智能监管研究报告2023（附下载）

全球生成式人工智能监管研究报告2023（附下载）

专知会员服务

54+阅读 · 2023年8月23日

人工智能安全挑战及治理研究

人工智能安全挑战及治理研究

专知会员服务

67+阅读 · 2023年6月18日

【AI与刑事】人工智能法案下刑事图像分析的合规挑战

【AI与刑事】人工智能法案下刑事图像分析的合规挑战

专知会员服务

12+阅读 · 2022年6月29日

人工智能模型数据泄露的攻击与防御研究综述

人工智能模型数据泄露的攻击与防御研究综述

专知会员服务

77+阅读 · 2021年3月31日

国家工信安全中心发布《人工智能中国专利技术分析报告》，74页pdf，百度AI专利榜首

国家工信安全中心发布《人工智能中国专利技术分析报告》，74页pdf，百度AI专利榜首

专知会员服务

124+阅读 · 2019年12月10日

《人工智能数据安全白皮书》（2019版）发布，51页PDF，中国信息通信研究院编

《人工智能数据安全白皮书》（2019版）发布，51页PDF，中国信息通信研究院编

专知会员服务

150+阅读 · 2019年11月8日

人工智能和军备控制，80页pdf

人工智能和军备控制，80页pdf

专知

15+阅读 · 2022年11月2日

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

专知

102+阅读 · 2022年10月17日

推荐！《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

推荐！《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

专知

63+阅读 · 2022年9月8日

推荐！【中文版】《人工智能在军事应用中的可能性和挑战》瑞典国防研究局16页报告

推荐！【中文版】《人工智能在军事应用中的可能性和挑战》瑞典国防研究局16页报告

专知

87+阅读 · 2022年7月29日

推荐！【中美俄AI军用方向】中文版《为国家安全和国防开发人工智能》，美军重大AI应用案例及未来发展布局

推荐！【中美俄AI军用方向】中文版《为国家安全和国防开发人工智能》，美军重大AI应用案例及未来发展布局

专知

73+阅读 · 2022年6月30日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

【AI+ 军事】美政府问责局（GAO）最新《人工智能：国防部应改进策略和流程并加强协作指导》报告，97页pdf

【AI+ 军事】美政府问责局（GAO）最新《人工智能：国防部应改进策略和流程并加强协作指导》报告，97页pdf

专知

57+阅读 · 2022年4月11日

美专家：中美在人工智能领域的竞争现状与对策建议

美专家：中美在人工智能领域的竞争现状与对策建议

未来产业促进会

12+阅读 · 2019年6月14日

AI版权征文 | 日本人工智能发展及著作权问题上的选择与纠结（上篇）

AI版权征文 | 日本人工智能发展及著作权问题上的选择与纠结（上篇）

百度公共政策研究院

10+阅读 · 2018年11月1日

【深度学习】深度学习的核心：掌握训练数据的方法

【深度学习】深度学习的核心：掌握训练数据的方法

产业智能官

12+阅读 · 2018年1月14日

大数据环境下弱监督深度学习的人脸美丽预测研究

国家自然科学基金

3+阅读 · 2017年12月31日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

投资者有限关注与证券市场监管：基于大数据和计算实验的方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向有源配电网的数据传输优化及智能过滤机制

国家自然科学基金

0+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于数据特征选择与匹配的工业过程监测方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

非约束环境下的人脸图像预处理计算模型与方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

大数据环境下的证券市场操纵行为发现机理、模型与方法

国家自然科学基金

0+阅读 · 2015年12月31日

智能视频监控中图像超分辨率重建关键技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Sovereign-by-Design A Reference Architecture for AI and Blockchain Enabled Systems

Arxiv

0+阅读 · 2月5日

Governance at the Edge of Architecture: Regulating NeuroAI and Neuromorphic Systems

Arxiv

0+阅读 · 2月4日

Governance at the Edge of Architecture: Regulating NeuroAI and Neuromorphic Systems

Arxiv

0+阅读 · 2月2日

A Study of Data Selection Strategies for Pre-training Self-Supervised Speech Models

Arxiv

0+阅读 · 1月28日

Artificial Intelligence and Intellectual Property Rights: Comparative Transnational Policy Analysis

Arxiv

0+阅读 · 1月25日

Representative Litigation Settlement Agreements in Artificial Intelligence Copyright Infringement Disputes: A Comparative Reflection Based on the U.S

Arxiv

0+阅读 · 1月24日

Distinguishing Task-Specific and General-Purpose AI in Regulation

Arxiv

0+阅读 · 1月23日

Towards AI Transparency and Accountability: A Global Framework for Exchanging Information on AI Systems

Arxiv

0+阅读 · 1月20日

Global AI Governance Overview: Understanding Regulatory Requirements Across Global Jurisdictions

Arxiv

0+阅读 · 1月18日

AI Deployment Authorisation: A Global Standard for Machine-Readable Governance of High-Risk Artificial Intelligence

Arxiv

0+阅读 · 1月11日

VIP会员

文章信息

相关主题

最新内容

《美国首席数字与人工智能办公室（CDAO）人工智能治理与采办流程效能评估》报告

《美国首席数字与人工智能办公室（CDAO）人工智能治理与采办流程效能评估》报告

专知会员服务

1+阅读 · 今天3:36

算法战加速推进：五角大楼项目、供应商生态体系与军事创新的战略重塑

算法战加速推进：五角大楼项目、供应商生态体系与军事创新的战略重塑

专知会员服务

0+阅读 · 今天3:23

探秘Palantir：驱动美情报的科技巨头

探秘Palantir：驱动美情报的科技巨头

专知会员服务

1+阅读 · 今天3:14

《从技术突破到战场应用：发挥原型开发效能的最佳实践》报告

《从技术突破到战场应用：发挥原型开发效能的最佳实践》报告

专知会员服务

1+阅读 · 今天3:09

《美国海军军事海运司令部 2026年手册》

《美国海军军事海运司令部 2026年手册》

专知会员服务

1+阅读 · 今天3:05

别再只盯着“杀手机器人”了：人工智能真正变革现代战争的三种方式

别再只盯着“杀手机器人”了：人工智能真正变革现代战争的三种方式

专知会员服务

0+阅读 · 今天2:36

《人工智能使能系统可靠性框架》

《人工智能使能系统可靠性框架》

专知会员服务

3+阅读 · 今天2:28

2026“人工智能+”行业发展蓝皮书（附下载）

2026“人工智能+”行业发展蓝皮书（附下载）

专知会员服务

12+阅读 · 4月26日

《强化学习数学基础》

《强化学习数学基础》

专知会员服务

8+阅读 · 4月26日

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

专知会员服务

7+阅读 · 4月26日

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

专知会员服务

6+阅读 · 4月26日

深入Maven智能系统：Palantir基于Claude打造的军事大脑

深入Maven智能系统：Palantir基于Claude打造的军事大脑

专知会员服务

12+阅读 · 4月26日

“Maven计划”的发展演变之“Maven智能系统”应用

“Maven计划”的发展演变之“Maven智能系统”应用

专知会员服务

10+阅读 · 4月26日

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

专知会员服务

7+阅读 · 4月26日

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

专知会员服务

8+阅读 · 4月26日

相关VIP内容

《军事领域人工智能网络安全的数字主权控制框架》

《军事领域人工智能网络安全的数字主权控制框架》

专知会员服务

20+阅读 · 2025年9月20日

《领航人工智能前沿：乌克兰冲突对北约在军事人工智能治理作用的启示》最新报告

《领航人工智能前沿：乌克兰冲突对北约在军事人工智能治理作用的启示》最新报告

专知会员服务

27+阅读 · 2025年2月26日

预训练模型的新兴安全与隐私问题：综述与展望

预训练模型的新兴安全与隐私问题：综述与展望

专知会员服务

20+阅读 · 2024年11月13日

生成式人工智能预训练和优化训练数据安全规范

生成式人工智能预训练和优化训练数据安全规范

专知会员服务

49+阅读 · 2024年4月11日

全球生成式人工智能监管研究报告2023（附下载）

全球生成式人工智能监管研究报告2023（附下载）

专知会员服务

54+阅读 · 2023年8月23日

人工智能安全挑战及治理研究

人工智能安全挑战及治理研究

专知会员服务

67+阅读 · 2023年6月18日

【AI与刑事】人工智能法案下刑事图像分析的合规挑战

【AI与刑事】人工智能法案下刑事图像分析的合规挑战

专知会员服务

12+阅读 · 2022年6月29日

人工智能模型数据泄露的攻击与防御研究综述

人工智能模型数据泄露的攻击与防御研究综述

专知会员服务

77+阅读 · 2021年3月31日

国家工信安全中心发布《人工智能中国专利技术分析报告》，74页pdf，百度AI专利榜首

国家工信安全中心发布《人工智能中国专利技术分析报告》，74页pdf，百度AI专利榜首

专知会员服务

124+阅读 · 2019年12月10日

《人工智能数据安全白皮书》（2019版）发布，51页PDF，中国信息通信研究院编

《人工智能数据安全白皮书》（2019版）发布，51页PDF，中国信息通信研究院编

专知会员服务

150+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

算法战加速推进：五角大楼项目、供应商生态体系与军事创新的战略重塑

《从技术突破到战场应用：发挥原型开发效能的最佳实践》报告

《美国首席数字与人工智能办公室（CDAO）人工智能治理与采办流程效能评估》报告

探秘Palantir：驱动美情报的科技巨头

相关资讯

人工智能和军备控制，80页pdf

人工智能和军备控制，80页pdf

专知

15+阅读 · 2022年11月2日

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

专知

102+阅读 · 2022年10月17日

推荐！《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

推荐！《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

专知

63+阅读 · 2022年9月8日

推荐！【中文版】《人工智能在军事应用中的可能性和挑战》瑞典国防研究局16页报告

推荐！【中文版】《人工智能在军事应用中的可能性和挑战》瑞典国防研究局16页报告

专知

87+阅读 · 2022年7月29日

推荐！【中美俄AI军用方向】中文版《为国家安全和国防开发人工智能》，美军重大AI应用案例及未来发展布局

推荐！【中美俄AI军用方向】中文版《为国家安全和国防开发人工智能》，美军重大AI应用案例及未来发展布局

专知

73+阅读 · 2022年6月30日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

【AI+ 军事】美政府问责局（GAO）最新《人工智能：国防部应改进策略和流程并加强协作指导》报告，97页pdf

【AI+ 军事】美政府问责局（GAO）最新《人工智能：国防部应改进策略和流程并加强协作指导》报告，97页pdf

专知

57+阅读 · 2022年4月11日

美专家：中美在人工智能领域的竞争现状与对策建议

美专家：中美在人工智能领域的竞争现状与对策建议

未来产业促进会

12+阅读 · 2019年6月14日

AI版权征文 | 日本人工智能发展及著作权问题上的选择与纠结（上篇）

AI版权征文 | 日本人工智能发展及著作权问题上的选择与纠结（上篇）

百度公共政策研究院

10+阅读 · 2018年11月1日

【深度学习】深度学习的核心：掌握训练数据的方法

【深度学习】深度学习的核心：掌握训练数据的方法

产业智能官

12+阅读 · 2018年1月14日

相关论文

Sovereign-by-Design A Reference Architecture for AI and Blockchain Enabled Systems

Arxiv

0+阅读 · 2月5日

Governance at the Edge of Architecture: Regulating NeuroAI and Neuromorphic Systems

Arxiv

0+阅读 · 2月4日

Governance at the Edge of Architecture: Regulating NeuroAI and Neuromorphic Systems

Arxiv

0+阅读 · 2月2日

A Study of Data Selection Strategies for Pre-training Self-Supervised Speech Models

Arxiv

0+阅读 · 1月28日

Artificial Intelligence and Intellectual Property Rights: Comparative Transnational Policy Analysis

Arxiv

0+阅读 · 1月25日

Representative Litigation Settlement Agreements in Artificial Intelligence Copyright Infringement Disputes: A Comparative Reflection Based on the U.S

Arxiv

0+阅读 · 1月24日

Distinguishing Task-Specific and General-Purpose AI in Regulation

Arxiv

0+阅读 · 1月23日

Towards AI Transparency and Accountability: A Global Framework for Exchanging Information on AI Systems

Arxiv

0+阅读 · 1月20日

Global AI Governance Overview: Understanding Regulatory Requirements Across Global Jurisdictions

Arxiv

0+阅读 · 1月18日

AI Deployment Authorisation: A Global Standard for Machine-Readable Governance of High-Risk Artificial Intelligence

Arxiv

0+阅读 · 1月11日

相关基金

大数据环境下弱监督深度学习的人脸美丽预测研究

国家自然科学基金

3+阅读 · 2017年12月31日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

投资者有限关注与证券市场监管：基于大数据和计算实验的方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向有源配电网的数据传输优化及智能过滤机制

国家自然科学基金

0+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于数据特征选择与匹配的工业过程监测方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

非约束环境下的人脸图像预处理计算模型与方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

大数据环境下的证券市场操纵行为发现机理、模型与方法

国家自然科学基金

0+阅读 · 2015年12月31日

智能视频监控中图像超分辨率重建关键技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员