We investigate the contents of web-scraped data for training AI systems, at sizes where human dataset curators and compilers no longer manually annotate every sample. Building off of prior privacy concerns in machine learning models, we ask: What are the legal privacy implications of web-scraped machine learning datasets? In an empirical study of a popular training dataset, we find significant presence of personally identifiable information despite sanitization efforts. Our audit provides concrete evidence to support the concern that any large-scale web-scraped dataset may contain legally defined personal data. We use these findings of a real-world dataset to inform our legal analysis with respect to existing privacy and data protection laws. We surface various legal risks of current data curation practices that may propagate personal information to train downstream models. Based on our empirical and legal analyses, we argue for reorientation of current frameworks of "publicly available" information to meaningfully limit the development of AI built upon indiscriminate scraping of the internet.


翻译:我们研究了用于训练AI系统的网络抓取数据内容,其规模已远超人类数据集管理员和编纂者手动标注每个样本的能力。基于机器学习模型此前存在的隐私问题,我们追问:网络抓取机器学习数据集在法律隐私方面有何影响?通过对一个流行训练数据集的实证研究,我们发现尽管有清洗措施,个人身份信息仍显著存在。我们的审计为以下担忧提供了具体证据:任何大规模网络抓取数据集都可能包含法律定义的个人数据。我们利用这一真实世界数据集的发现,结合现行隐私与数据保护法律开展法律分析,揭示了当前数据编纂实践中可能将个人信息传播至下游模型训练的各种法律风险。基于实证与法律分析,我们主张重新定义"公开可用"信息的现行框架,以切实限制基于无差别互联网抓取的AI开发。

0
下载
关闭预览

相关内容

法律是国家制定或认可的,由国家强制力保证实施的,以规定权利和义务为内容的具有普遍约束力的社会规范。
机器遗忘综述:技术与新出现的隐私风险
专知会员服务
24+阅读 · 2024年6月16日
UCL最新「机器学习隐私」综述论文,概述隐私挑战
专知会员服务
37+阅读 · 2021年7月11日
专知会员服务
40+阅读 · 2020年12月20日
机器学习模型安全与隐私研究综述
专知会员服务
115+阅读 · 2020年11月12日
【中国人民大学】机器学习的隐私保护研究综述
专知会员服务
134+阅读 · 2020年3月25日
联邦学习安全与隐私保护研究综述
专知
12+阅读 · 2020年8月7日
机器学习数据集哪里找:优秀数据集来源盘点
云栖社区
12+阅读 · 2019年1月30日
【深度学习】深度学习的核心:掌握训练数据的方法
产业智能官
12+阅读 · 2018年1月14日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
VIP会员
最新内容
综述 | 从问答到任务完成:Agent系统与Harness设计
专知会员服务
1+阅读 · 今天16:54
Agentic RL:框架、实践与长程智能体训练
专知会员服务
1+阅读 · 今天16:52
重新思考无人机时代的生存能力
专知会员服务
5+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
4+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
6+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员