We Should Separate Memorization from Copyright - 专知论文

会员服务 ·

0

法律 · 分析 · 数据科学 · 风险因素 · 重建 ·

We Should Separate Memorization from Copyright

翻译：应将记忆与版权区分开来

Adi Haviv,Niva Elkin-Koren,Uri Hacohen,Roi Livni,Shay Moran

The widespread use of foundation models has introduced a new risk factor of copyright issue. This issue is leading to an active, lively and on-going debate amongst the data-science community as well as amongst legal scholars. Where claims and results across both sides are often interpreted in different ways and leading to different implications. Our position is that much of the technical literature relies on traditional reconstruction techniques that are not designed for copyright analysis. As a result, memorization and copying have been conflated across both technical and legal communities and in multiple contexts. We argue that memorization, as commonly studied in data science, should not be equated with copying and should not be used as a proxy for copyright infringement. We distinguish technical signals that meaningfully indicate infringement risk from those that instead reflect lawful generalization or high-frequency content. Based on this analysis, we advocate for an output-level, risk-based evaluation process that aligns technical assessments with established copyright standards and provides a more principled foundation for research, auditing, and policy.

翻译：基础模型的广泛使用引入了版权问题这一新的风险因素。这一问题正在数据科学界和法律学者中引发一场活跃、热烈且持续的辩论。双方的主张和结果常以不同方式被解读，并导致不同的影响。我们的立场是，大量技术文献依赖传统的重建技术，而这些技术并非为版权分析而设计。因此，在技术和法律界以及多种语境下，记忆与复制已被混为一谈。我们认为，数据科学中通常研究的记忆不应等同于复制，也不应被用作版权侵权的替代指标。我们区分了那些有意义地指示侵权风险的技术信号与那些仅反映合法泛化或高频内容的信号。基于此分析，我们倡导一种输出层面的、基于风险的评估流程，该流程能使技术评估与既定的版权标准保持一致，并为研究、审计和政策制定提供更具原则性的基础。

0

相关内容

法律是国家制定或认可的，由国家强制力保证实施的，以规定权利和义务为内容的具有普遍约束力的社会规范。

《GPT 的困境：基础模型与双重用途的阴影——在人工智能时代驾驭民用与军用应用的模糊地带》最新30页论文

《GPT 的困境：基础模型与双重用途的阴影——在人工智能时代驾驭民用与军用应用的模糊地带》最新30页论文

专知会员服务

35+阅读 · 2024年8月16日

马毅乔丹联合指导，Yaodong Yu伯克利博士论文《可靠表示学习：理论与实践》

马毅乔丹联合指导，Yaodong Yu伯克利博士论文《可靠表示学习：理论与实践》

专知会员服务

43+阅读 · 2024年5月11日

「大模型」之所短，「知识图谱」之所长

「大模型」之所短，「知识图谱」之所长

专知会员服务

60+阅读 · 2024年5月8日

重磅！《中国数字权益白皮书》发布，助力国家文化数字化战略

重磅！《中国数字权益白皮书》发布，助力国家文化数字化战略

专知会员服务

37+阅读 · 2022年6月28日

战争武装冲突时期的隐私权和数据保护，333页pdf

战争武装冲突时期的隐私权和数据保护，333页pdf

专知会员服务

16+阅读 · 2022年6月24日

【干货书】隐私保留机器学习，Privacy-Preserving Machine Learning

【干货书】隐私保留机器学习，Privacy-Preserving Machine Learning

专知会员服务

27+阅读 · 2022年4月6日

【MPG & MILA 】因果表示学习，Towards Causal Representation Learning

专知会员服务

52+阅读 · 2021年7月29日

【CVPR2021】兼容黑盒白盒、抵御水印攻击，全新框架高效保护GAN知识产权

专知会员服务

12+阅读 · 2021年5月9日

中科院信工所发布《深度学习系统的隐私与安全》综述论文，187篇文献总结

中科院信工所发布《深度学习系统的隐私与安全》综述论文，187篇文献总结

专知会员服务

103+阅读 · 2019年12月5日

微软研究院新版书籍《数据科学基础》（Foundations of Data Science），附479页PDF下载

微软研究院新版书籍《数据科学基础》（Foundations of Data Science），附479页PDF下载

专知会员服务

137+阅读 · 2019年10月26日

知识图谱如何落地？Neo4j这本《知识图谱:数据业务应用》书为你讲述如何构建和使用知识图谱，87页pdf

知识图谱如何落地？Neo4j这本《知识图谱:数据业务应用》书为你讲述如何构建和使用知识图谱，87页pdf

专知

28+阅读 · 2022年2月18日

知识图谱|最近三年知识图谱在动态以及时间预测与补全上必读的6篇论文（收藏一下）

知识图谱|最近三年知识图谱在动态以及时间预测与补全上必读的6篇论文（收藏一下）

AINLP

75+阅读 · 2020年1月14日

微软研究院新版书籍《数据科学基础》，附479页PDF下载

微软研究院新版书籍《数据科学基础》，附479页PDF下载

专知

47+阅读 · 2019年9月20日

【联邦学习】联邦学习的研究及应用、联邦学习的多种可能性

【联邦学习】联邦学习的研究及应用、联邦学习的多种可能性

产业智能官

30+阅读 · 2019年5月24日

经典文章推荐-《迁移学习-该做的和不该做的》

经典文章推荐-《迁移学习-该做的和不该做的》

深度学习与NLP

16+阅读 · 2019年4月20日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

推荐系统资源(文献、工具、框架)整理

推荐系统资源(文献、工具、框架)整理

专知

18+阅读 · 2019年2月4日

AI版权征文 | 日本人工智能发展及著作权问题上的选择与纠结（上篇）

AI版权征文 | 日本人工智能发展及著作权问题上的选择与纠结（上篇）

百度公共政策研究院

10+阅读 · 2018年11月1日

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

深度学习与NLP

25+阅读 · 2018年7月18日

知识图谱 vs. 对话系统专题讨论 - PaperWeekly 社区

知识图谱 vs. 对话系统专题讨论 - PaperWeekly 社区

PaperWeekly

10+阅读 · 2017年10月18日

图文混合跨媒体知识单元的模糊分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

广义双随机相位编码系统中以QR码为载体的信息加密及无损恢复

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

网络用户隐私担忧与主动性泄露隐私信息之间的悖论：理论探索和基于社交网络的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

维吾尔文印刷文档图像中不良信息过滤关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

图像感兴趣区域提取及加密研究

国家自然科学基金

0+阅读 · 2014年12月31日

中美科学基金资助与知识生产比较研究

国家自然科学基金

1+阅读 · 2014年12月31日

Generative AI Training and Copyright Law

Arxiv

0+阅读 · 3月17日

A PUF-Based Approach for Copy Protection of Intellectual Property in Neural Network Models

Arxiv

0+阅读 · 3月11日

Safeguarding Multimodal Knowledge Copyright in the RAG-as-a-Service Environment

Arxiv

0+阅读 · 2月28日

Blameless Users in a Clean Room: Defining Copyright Protection for Generative Models

Arxiv

0+阅读 · 2月25日

Protecting Language Models Against Unauthorized Distillation through Trace Rewriting

Arxiv

0+阅读 · 2月16日

DWBench: Holistic Evaluation of Watermark for Dataset Copyright Auditing

Arxiv

0+阅读 · 2月14日

Creative Ownership in the Age of AI

Arxiv

0+阅读 · 2月12日

Copyright Detective: A Forensic System to Evidence LLMs Flickering Copyright Leakage Risks

Arxiv

0+阅读 · 2月11日

Remembering Unequally: Global and Disciplinary Bias in LLM Reconstruction of Scholarly Coauthor Lists

Arxiv

0+阅读 · 2月5日

Copyright Detective: A Forensic System to Evidence LLMs Flickering Copyright Leakage Risks

Arxiv

0+阅读 · 2月5日

VIP会员

文章信息

相关主题

最新内容

《反无人机蜂群：有人-无人协同防御场景下的编队重构分析》

《反无人机蜂群：有人-无人协同防御场景下的编队重构分析》

专知会员服务

4+阅读 · 今天12:53

《史诗怒火/咆哮雄狮行动：针对伊朗空中战役的战略分析》68页智库报告

《史诗怒火/咆哮雄狮行动：针对伊朗空中战役的战略分析》68页智库报告

专知会员服务

3+阅读 · 今天12:39

“愈演愈烈的欺骗与干扰博弈”：无人机与人工智能背景下俄乌强化以无人机为核心的电子战

“愈演愈烈的欺骗与干扰博弈”：无人机与人工智能背景下俄乌强化以无人机为核心的电子战

专知会员服务

2+阅读 · 今天12:32

乌克兰纵深打击如何重塑俄罗斯的战略选择

乌克兰纵深打击如何重塑俄罗斯的战略选择

专知会员服务

1+阅读 · 今天12:25

《分布式太空任务对比分析与综合建模及仿真环境》120页

《分布式太空任务对比分析与综合建模及仿真环境》120页

专知会员服务

1+阅读 · 今天12:14

俄乌战争中关于中程打击无人机部署的经验启示

俄乌战争中关于中程打击无人机部署的经验启示

专知会员服务

0+阅读 · 今天12:08

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

专知会员服务

4+阅读 · 7月23日

《基于强化学习的自动化红队测试》

《基于强化学习的自动化红队测试》

专知会员服务

4+阅读 · 7月23日

《下一代无人机-卫星通信：人工智能创新与未来展望》32页长综述

《下一代无人机-卫星通信：人工智能创新与未来展望》32页长综述

专知会员服务

6+阅读 · 7月23日

“天降毒雾”：无人机如何使化学战重返乌克兰战场

“天降毒雾”：无人机如何使化学战重返乌克兰战场

专知会员服务

2+阅读 · 7月23日

伊朗不对称防空战略的演进

伊朗不对称防空战略的演进

专知会员服务

4+阅读 · 7月23日

对抗环境下超视距目标打击的情报支援

对抗环境下超视距目标打击的情报支援

专知会员服务

10+阅读 · 7月22日

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

专知会员服务

4+阅读 · 7月22日

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

专知会员服务

8+阅读 · 7月22日

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

专知会员服务

11+阅读 · 7月22日

相关VIP内容

《GPT 的困境：基础模型与双重用途的阴影——在人工智能时代驾驭民用与军用应用的模糊地带》最新30页论文

《GPT 的困境：基础模型与双重用途的阴影——在人工智能时代驾驭民用与军用应用的模糊地带》最新30页论文

专知会员服务

35+阅读 · 2024年8月16日

马毅乔丹联合指导，Yaodong Yu伯克利博士论文《可靠表示学习：理论与实践》

马毅乔丹联合指导，Yaodong Yu伯克利博士论文《可靠表示学习：理论与实践》

专知会员服务

43+阅读 · 2024年5月11日

「大模型」之所短，「知识图谱」之所长

「大模型」之所短，「知识图谱」之所长

专知会员服务

60+阅读 · 2024年5月8日

重磅！《中国数字权益白皮书》发布，助力国家文化数字化战略

重磅！《中国数字权益白皮书》发布，助力国家文化数字化战略

专知会员服务

37+阅读 · 2022年6月28日

战争武装冲突时期的隐私权和数据保护，333页pdf

战争武装冲突时期的隐私权和数据保护，333页pdf

专知会员服务

16+阅读 · 2022年6月24日

【干货书】隐私保留机器学习，Privacy-Preserving Machine Learning

【干货书】隐私保留机器学习，Privacy-Preserving Machine Learning

专知会员服务

27+阅读 · 2022年4月6日

【MPG & MILA 】因果表示学习，Towards Causal Representation Learning

专知会员服务

52+阅读 · 2021年7月29日

【CVPR2021】兼容黑盒白盒、抵御水印攻击，全新框架高效保护GAN知识产权

专知会员服务

12+阅读 · 2021年5月9日

中科院信工所发布《深度学习系统的隐私与安全》综述论文，187篇文献总结

中科院信工所发布《深度学习系统的隐私与安全》综述论文，187篇文献总结

专知会员服务

103+阅读 · 2019年12月5日

微软研究院新版书籍《数据科学基础》（Foundations of Data Science），附479页PDF下载

微软研究院新版书籍《数据科学基础》（Foundations of Data Science），附479页PDF下载

专知会员服务

137+阅读 · 2019年10月26日

热门VIP内容

开通专知VIP会员享更多权益服务

《史诗怒火/咆哮雄狮行动：针对伊朗空中战役的战略分析》68页智库报告

乌克兰纵深打击如何重塑俄罗斯的战略选择

《反无人机蜂群：有人-无人协同防御场景下的编队重构分析》

“愈演愈烈的欺骗与干扰博弈”：无人机与人工智能背景下俄乌强化以无人机为核心的电子战

相关资讯

知识图谱如何落地？Neo4j这本《知识图谱:数据业务应用》书为你讲述如何构建和使用知识图谱，87页pdf

知识图谱如何落地？Neo4j这本《知识图谱:数据业务应用》书为你讲述如何构建和使用知识图谱，87页pdf

专知

28+阅读 · 2022年2月18日

知识图谱|最近三年知识图谱在动态以及时间预测与补全上必读的6篇论文（收藏一下）

知识图谱|最近三年知识图谱在动态以及时间预测与补全上必读的6篇论文（收藏一下）

AINLP

75+阅读 · 2020年1月14日

微软研究院新版书籍《数据科学基础》，附479页PDF下载

微软研究院新版书籍《数据科学基础》，附479页PDF下载

专知

47+阅读 · 2019年9月20日

【联邦学习】联邦学习的研究及应用、联邦学习的多种可能性

【联邦学习】联邦学习的研究及应用、联邦学习的多种可能性

产业智能官

30+阅读 · 2019年5月24日

经典文章推荐-《迁移学习-该做的和不该做的》

经典文章推荐-《迁移学习-该做的和不该做的》

深度学习与NLP

16+阅读 · 2019年4月20日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

推荐系统资源(文献、工具、框架)整理

推荐系统资源(文献、工具、框架)整理

专知

18+阅读 · 2019年2月4日

AI版权征文 | 日本人工智能发展及著作权问题上的选择与纠结（上篇）

AI版权征文 | 日本人工智能发展及著作权问题上的选择与纠结（上篇）

百度公共政策研究院

10+阅读 · 2018年11月1日

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

深度学习与NLP

25+阅读 · 2018年7月18日

知识图谱 vs. 对话系统专题讨论 - PaperWeekly 社区

知识图谱 vs. 对话系统专题讨论 - PaperWeekly 社区

PaperWeekly

10+阅读 · 2017年10月18日

相关论文

Generative AI Training and Copyright Law

Arxiv

0+阅读 · 3月17日

A PUF-Based Approach for Copy Protection of Intellectual Property in Neural Network Models

Arxiv

0+阅读 · 3月11日

Safeguarding Multimodal Knowledge Copyright in the RAG-as-a-Service Environment

Arxiv

0+阅读 · 2月28日

Blameless Users in a Clean Room: Defining Copyright Protection for Generative Models

Arxiv

0+阅读 · 2月25日

Protecting Language Models Against Unauthorized Distillation through Trace Rewriting

Arxiv

0+阅读 · 2月16日

DWBench: Holistic Evaluation of Watermark for Dataset Copyright Auditing

Arxiv

0+阅读 · 2月14日

Creative Ownership in the Age of AI

Arxiv

0+阅读 · 2月12日

Copyright Detective: A Forensic System to Evidence LLMs Flickering Copyright Leakage Risks

Arxiv

0+阅读 · 2月11日

Remembering Unequally: Global and Disciplinary Bias in LLM Reconstruction of Scholarly Coauthor Lists

Arxiv

0+阅读 · 2月5日

Copyright Detective: A Forensic System to Evidence LLMs Flickering Copyright Leakage Risks

Arxiv

0+阅读 · 2月5日

相关基金

图文混合跨媒体知识单元的模糊分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

广义双随机相位编码系统中以QR码为载体的信息加密及无损恢复

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

网络用户隐私担忧与主动性泄露隐私信息之间的悖论：理论探索和基于社交网络的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

维吾尔文印刷文档图像中不良信息过滤关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

图像感兴趣区域提取及加密研究

国家自然科学基金

0+阅读 · 2014年12月31日

中美科学基金资助与知识生产比较研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员