A Common Pool of Privacy Problems: Legal and Technical Lessons from a Large-Scale Web-Scraped Machine Learning Dataset - 专知论文

会员服务 ·

0

法律 · 数据集 · 大规模网络 · AI · 分析 ·

A Common Pool of Privacy Problems: Legal and Technical Lessons from a Large-Scale Web-Scraped Machine Learning Dataset

翻译：一个共享的隐私问题池：大规模网络抓取机器学习数据集的法律与技术教训

Rachel Hong,Jevan Hutson,William Agnew,Imaad Huda,Tadayoshi Kohno,Jamie Morgenstern

We investigate the contents of web-scraped data for training AI systems, at sizes where human dataset curators and compilers no longer manually annotate every sample. Building off of prior privacy concerns in machine learning models, we ask: What are the legal privacy implications of web-scraped machine learning datasets? In an empirical study of a popular training dataset, we find significant presence of personally identifiable information despite sanitization efforts. Our audit provides concrete evidence to support the concern that any large-scale web-scraped dataset may contain legally defined personal data. We use these findings of a real-world dataset to inform our legal analysis with respect to existing privacy and data protection laws. We surface various legal risks of current data curation practices that may propagate personal information to train downstream models. Based on our empirical and legal analyses, we argue for reorientation of current frameworks of "publicly available" information to meaningfully limit the development of AI built upon indiscriminate scraping of the internet.

翻译：我们研究了用于训练AI系统的网络抓取数据内容，其规模已远超人类数据集管理员和编纂者手动标注每个样本的能力。基于机器学习模型此前存在的隐私问题，我们追问：网络抓取机器学习数据集在法律隐私方面有何影响？通过对一个流行训练数据集的实证研究，我们发现尽管有清洗措施，个人身份信息仍显著存在。我们的审计为以下担忧提供了具体证据：任何大规模网络抓取数据集都可能包含法律定义的个人数据。我们利用这一真实世界数据集的发现，结合现行隐私与数据保护法律开展法律分析，揭示了当前数据编纂实践中可能将个人信息传播至下游模型训练的各种法律风险。基于实证与法律分析，我们主张重新定义"公开可用"信息的现行框架，以切实限制基于无差别互联网抓取的AI开发。

0

相关内容

法律是国家制定或认可的，由国家强制力保证实施的，以规定权利和义务为内容的具有普遍约束力的社会规范。

机器遗忘综述：技术与新出现的隐私风险

机器遗忘综述：技术与新出现的隐私风险

专知会员服务

24+阅读 · 2024年6月16日

【干货书】隐私保留机器学习，Privacy-Preserving Machine Learning

【干货书】隐私保留机器学习，Privacy-Preserving Machine Learning

专知会员服务

27+阅读 · 2022年4月6日

UCL最新「机器学习隐私」综述论文，概述隐私挑战

UCL最新「机器学习隐私」综述论文，概述隐私挑战

专知会员服务

37+阅读 · 2021年7月11日

联邦学习中的隐私和鲁棒性:攻击和防御, 杨强等学者最新综述论文，16页pdf

联邦学习中的隐私和鲁棒性:攻击和防御, 杨强等学者最新综述论文，16页pdf

专知会员服务

104+阅读 · 2021年2月3日

机器学习的安全问题及隐私保护

专知会员服务

40+阅读 · 2020年12月20日

机器学习模型安全与隐私研究综述

机器学习模型安全与隐私研究综述

专知会员服务

115+阅读 · 2020年11月12日

机器学习隐私综述论文，An Overview of Privacy in Machine Learning

机器学习隐私综述论文，An Overview of Privacy in Machine Learning

专知会员服务

81+阅读 · 2020年5月20日

【中国人民大学】机器学习的隐私保护研究综述

【中国人民大学】机器学习的隐私保护研究综述

专知会员服务

134+阅读 · 2020年3月25日

【AAAI Tutorials 2019】联合学习：机器学习中的用户隐私，数据安全性和机密性（Federated Learning: User Privacy, Data Security and Confidentiality in Machine Learning）

【AAAI Tutorials 2019】联合学习：机器学习中的用户隐私，数据安全性和机密性（Federated Learning: User Privacy, Data Security and Confidentiality in Machine Learning）

专知会员服务

15+阅读 · 2019年11月18日

用户隐私，数据孤岛和联邦学习，香港科技大学杨强教授，第八届全国社会媒体处理大会SMP2019

用户隐私，数据孤岛和联邦学习，香港科技大学杨强教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

57+阅读 · 2019年10月24日

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

专知

28+阅读 · 2022年9月11日

【新书】机器学习算法，模型与应用，154页pdf

【新书】机器学习算法，模型与应用，154页pdf

专知

24+阅读 · 2022年1月20日

联邦学习安全与隐私保护研究综述

联邦学习安全与隐私保护研究综述

专知

12+阅读 · 2020年8月7日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

专知

127+阅读 · 2019年3月31日

机器学习数据集哪里找：优秀数据集来源盘点

机器学习数据集哪里找：优秀数据集来源盘点

云栖社区

12+阅读 · 2019年1月30日

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

AI研习社

13+阅读 · 2018年6月8日

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

专知

21+阅读 · 2018年5月14日

【深度学习】深度学习的核心：掌握训练数据的方法

【深度学习】深度学习的核心：掌握训练数据的方法

产业智能官

12+阅读 · 2018年1月14日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

面向时空特性的社交网络推演攻击与隐私保护关键技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于负调查的云数据隐私保护关键问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

网络用户隐私担忧与主动性泄露隐私信息之间的悖论：理论探索和基于社交网络的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

大规模在线社会网络社区发现及隐私保护研究

国家自然科学基金

1+阅读 · 2014年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

The Pragmatic Frames of Spurious Correlations in Machine Learning: Interpreting How and Why They Matter

The Pragmatic Frames of Spurious Correlations in Machine Learning: Interpreting How and Why They Matter

Arxiv

0+阅读 · 5月4日

Machine Unlearning for Class Removal through SISA-based Deep Neural Network Architectures

Arxiv

0+阅读 · 4月30日

Differentially Private Contrastive Learning via Bounding Group-level Contribution

Arxiv

0+阅读 · 4月29日

Spore: Efficient and Training-Free Privacy Extraction Attack on LLMs via Inference-Time Hybrid Probing

Arxiv

0+阅读 · 4月26日

Privacy Leakage via Output Label Space and Differentially Private Continual Learning

Arxiv

0+阅读 · 4月24日

Robustness Analysis of Machine Learning Models for IoT Intrusion Detection Under Data Poisoning Attacks

Arxiv

0+阅读 · 4月15日

Safety at Scale: A Comprehensive Survey of Large Model and Agent Safety

Arxiv

0+阅读 · 4月14日

Model Privacy: A Unified Framework for Understanding Model Stealing Attacks and Defenses

Arxiv

0+阅读 · 4月5日

Privacy as Commodity: MFG-RegretNet for Large-Scale Privacy Trading in Federated Learning

Arxiv

0+阅读 · 3月30日

A Survey on Privacy in Graph Neural Networks: Attacks, Preservation, and Applications

Arxiv

11+阅读 · 2023年8月31日

VIP会员

文章信息

相关主题

大规模网络

最新内容

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

1+阅读 · 今天16:54

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

1+阅读 · 今天16:52

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

6+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

5+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

4+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

4+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

5+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

4+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

6+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

相关VIP内容

机器遗忘综述：技术与新出现的隐私风险

机器遗忘综述：技术与新出现的隐私风险

专知会员服务

24+阅读 · 2024年6月16日

【干货书】隐私保留机器学习，Privacy-Preserving Machine Learning

【干货书】隐私保留机器学习，Privacy-Preserving Machine Learning

专知会员服务

27+阅读 · 2022年4月6日

UCL最新「机器学习隐私」综述论文，概述隐私挑战

UCL最新「机器学习隐私」综述论文，概述隐私挑战

专知会员服务

37+阅读 · 2021年7月11日

联邦学习中的隐私和鲁棒性:攻击和防御, 杨强等学者最新综述论文，16页pdf

联邦学习中的隐私和鲁棒性:攻击和防御, 杨强等学者最新综述论文，16页pdf

专知会员服务

104+阅读 · 2021年2月3日

机器学习的安全问题及隐私保护

专知会员服务

40+阅读 · 2020年12月20日

机器学习模型安全与隐私研究综述

机器学习模型安全与隐私研究综述

专知会员服务

115+阅读 · 2020年11月12日

机器学习隐私综述论文，An Overview of Privacy in Machine Learning

机器学习隐私综述论文，An Overview of Privacy in Machine Learning

专知会员服务

81+阅读 · 2020年5月20日

【中国人民大学】机器学习的隐私保护研究综述

【中国人民大学】机器学习的隐私保护研究综述

专知会员服务

134+阅读 · 2020年3月25日

【AAAI Tutorials 2019】联合学习：机器学习中的用户隐私，数据安全性和机密性（Federated Learning: User Privacy, Data Security and Confidentiality in Machine Learning）

【AAAI Tutorials 2019】联合学习：机器学习中的用户隐私，数据安全性和机密性（Federated Learning: User Privacy, Data Security and Confidentiality in Machine Learning）

专知会员服务

15+阅读 · 2019年11月18日

用户隐私，数据孤岛和联邦学习，香港科技大学杨强教授，第八届全国社会媒体处理大会SMP2019

用户隐私，数据孤岛和联邦学习，香港科技大学杨强教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

57+阅读 · 2019年10月24日

热门VIP内容

开通专知VIP会员享更多权益服务

Agentic RL：框架、实践与长程智能体训练

重新思考无人机时代的生存能力

综述 | 从问答到任务完成：Agent系统与Harness设计

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

相关资讯

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

专知

28+阅读 · 2022年9月11日

【新书】机器学习算法，模型与应用，154页pdf

【新书】机器学习算法，模型与应用，154页pdf

专知

24+阅读 · 2022年1月20日

联邦学习安全与隐私保护研究综述

联邦学习安全与隐私保护研究综述

专知

12+阅读 · 2020年8月7日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

专知

127+阅读 · 2019年3月31日

机器学习数据集哪里找：优秀数据集来源盘点

机器学习数据集哪里找：优秀数据集来源盘点

云栖社区

12+阅读 · 2019年1月30日

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

AI研习社

13+阅读 · 2018年6月8日

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

专知

21+阅读 · 2018年5月14日

【深度学习】深度学习的核心：掌握训练数据的方法

【深度学习】深度学习的核心：掌握训练数据的方法

产业智能官

12+阅读 · 2018年1月14日

相关论文

The Pragmatic Frames of Spurious Correlations in Machine Learning: Interpreting How and Why They Matter

The Pragmatic Frames of Spurious Correlations in Machine Learning: Interpreting How and Why They Matter

Arxiv

0+阅读 · 5月4日

Machine Unlearning for Class Removal through SISA-based Deep Neural Network Architectures

Arxiv

0+阅读 · 4月30日

Differentially Private Contrastive Learning via Bounding Group-level Contribution

Arxiv

0+阅读 · 4月29日

Spore: Efficient and Training-Free Privacy Extraction Attack on LLMs via Inference-Time Hybrid Probing

Arxiv

0+阅读 · 4月26日

Privacy Leakage via Output Label Space and Differentially Private Continual Learning

Arxiv

0+阅读 · 4月24日

Robustness Analysis of Machine Learning Models for IoT Intrusion Detection Under Data Poisoning Attacks

Arxiv

0+阅读 · 4月15日

Safety at Scale: A Comprehensive Survey of Large Model and Agent Safety

Arxiv

0+阅读 · 4月14日

Model Privacy: A Unified Framework for Understanding Model Stealing Attacks and Defenses

Arxiv

0+阅读 · 4月5日

Privacy as Commodity: MFG-RegretNet for Large-Scale Privacy Trading in Federated Learning

Arxiv

0+阅读 · 3月30日

A Survey on Privacy in Graph Neural Networks: Attacks, Preservation, and Applications

Arxiv

11+阅读 · 2023年8月31日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

面向时空特性的社交网络推演攻击与隐私保护关键技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于负调查的云数据隐私保护关键问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

网络用户隐私担忧与主动性泄露隐私信息之间的悖论：理论探索和基于社交网络的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

大规模在线社会网络社区发现及隐私保护研究

国家自然科学基金

1+阅读 · 2014年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员