Membership Inference Attacks (MIAs) aim to distinguish training points (members) from unseen data (non-members), and are widely used to quantify memorization and assess privacy risks. Standard MIA evaluation requires repeated retraining, which is computationally costly for large models. One-run (single training with randomized data inclusion) and zero-run (post hoc evaluation) methods are often used instead, but their statistical validity remains unclear. We address this gap by framing MIA evaluation as a causal inference problem, defining \emph{memorization as the causal effect of including a data point in the training set}. This novel formulation reveals and formalizes key sources of bias in existing protocols: one-run methods suffer from interference between jointly included points, while zero-run evaluations are additionally confounded by distribution shift between member and non-member evaluation data. We derive causal analogues of standard MIA metrics and propose practical estimators for multi-run, one-run, and zero-run regimes with non-asymptotic consistency guarantees. We validate our approach in several settings, including pretrained and fine-tuned LLMs, showing that it enables reliable measurement of MIA performance without retraining and under distribution shift. Overall, our framework provides a principled foundation for privacy evaluation in modern AI systems.


翻译:成员推理攻击旨在区分训练数据点(成员)与未见数据(非成员),广泛用于量化记忆程度和评估隐私风险。标准成员推理攻击评估需要重复训练,这对大型模型而言计算成本高昂。实践中常采用单次运行(含随机数据包含的单次训练)和零次运行(事后评估)方法,但其统计有效性尚不明确。我们通过将成员推理攻击评估框架化为因果推断问题来填补这一空白,将记忆定义为训练集中包含某数据点产生的因果效应。这一新颖表述揭示并形式化了现有协议中的关键偏差来源:单次运行方法受联合包含数据点间的交互干扰,而零次运行评估还因成员与非成员评估数据间的分布偏移产生混杂偏差。我们推导了标准成员推理攻击指标的因果对应量,并提出适用于多次运行、单次运行和零次运行场景的实用估计器,这些估计器具有非渐近一致性保证。我们在包括预训练和微调大语言模型在内的多个场景中验证了该方法,表明其能够在无需重训练且存在分布偏移的情况下可靠测量成员推理攻击性能。总体而言,我们的框架为现代AI系统的隐私评估提供了原则性基础。

0
下载
关闭预览

相关内容

联邦学习中的成员推断攻击与防御:综述
专知会员服务
17+阅读 · 2024年12月15日
因果推断,Causal Inference:The Mixtape
专知会员服务
110+阅读 · 2021年8月27日
专知会员服务
23+阅读 · 2021年8月22日
【AAAI2021】知识迁移的机器学习成员隐私保护,57页ppt
专知会员服务
28+阅读 · 2021年2月9日
因果关联学习,Causal Relational Learning
专知会员服务
185+阅读 · 2020年4月21日
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
基于深度元学习的因果推断新方法
图与推荐
12+阅读 · 2020年7月21日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
深度 | 推荐系统评估
AI100
24+阅读 · 2019年3月16日
因果推理学习算法资源大列表
专知
27+阅读 · 2019年3月3日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
国家自然科学基金
96+阅读 · 2009年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
VIP会员
最新内容
定向能反无人机系统最新发展动态
专知会员服务
0+阅读 · 19分钟前
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
0+阅读 · 36分钟前
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
国家自然科学基金
96+阅读 · 2009年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员