Data minimization (DM) describes the principle of collecting only the data strictly necessary for a given task. It is a foundational principle across major data protection regulations like GDPR and CPRA. Violations of this principle have substantial real-world consequences, with regulatory actions resulting in fines reaching hundreds of millions of dollars. Notably, the relevance of data minimization is particularly pronounced in machine learning (ML) applications, which typically rely on large datasets, resulting in an emerging research area known as Data Minimization in Machine Learning (DMML). At the same time, existing work on other ML privacy and security topics often addresses concerns relevant to DMML without explicitly acknowledging the connection. This disconnect leads to confusion among practitioners, complicating their efforts to implement DM principles and interpret the terminology, metrics, and evaluation criteria used across different research communities. To address this gap, we present the first systematization of knowledge (SoK) for DMML. We introduce a general framework for DMML, encompassing a unified data pipeline, adversarial models, and points of minimization. This framework allows us to systematically review data minimization literature as well as DM-adjacent methodologies whose link to DM was often overlooked. Our structured overview is designed to help practitioners and researchers effectively adopt and apply DM principles in ML, by helping them identify relevant techniques and understand underlying assumptions and trade-offs through a DM-centric lens.


翻译:数据最小化(DM)原则要求仅收集特定任务所严格必需的数据。它是GDPR、CPRA等主要数据保护法规的基石原则。违反此原则会带来重大的现实后果,监管行动导致的罚款可达数亿美元。值得注意的是,数据最小化的相关性在机器学习(ML)应用中尤为突出,因为ML通常依赖大规模数据集,这催生了一个新兴研究领域——机器学习中的数据最小化(DMML)。与此同时,现有关于其他ML隐私与安全主题的研究,虽常涉及与DMML相关的关切,却未明确承认其联系。这种脱节导致从业者感到困惑,使其在实施DM原则、理解不同研究社区使用的术语、指标和评估标准时面临困难。为弥合这一鸿沟,我们首次提出了DMML的知识体系化(SoK)。我们引入了一个通用的DMML框架,涵盖统一的数据流水线、对抗模型以及最小化实施点。该框架使我们能够系统性地梳理数据最小化文献,以及那些与DM相关但其联系常被忽视的邻近方法。我们通过以DM为中心的视角,帮助从业者和研究者识别相关技术并理解其基本假设与权衡,从而为其在ML中有效采纳和应用DM原则提供结构化的概览。

0
下载
关闭预览

相关内容

【DeepMind】结构化数据少样本学习,51页ppt
专知会员服务
34+阅读 · 2022年8月13日
【2022新书】机器学习基础,225页pdf,Machine Learning The Basics
专知会员服务
113+阅读 · 2020年3月20日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
从浅层模型到深度模型:概览机器学习优化算法
机器之心
27+阅读 · 2017年7月9日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员