Membership inference attacks (MIAs) aim to determine whether a specific example was used to train a given language model. While prior work has explored prompt-based attacks such as ReCALL, these methods rely heavily on the assumption that using known non-members as prompts reliably suppresses the model's responses to non-member queries. We propose EM-MIA, a new membership inference approach that iteratively refines prefix effectiveness and membership scores using an expectation-maximization strategy without requiring labeled non-member examples. To support controlled evaluation, we introduce OLMoMIA, a benchmark that enables analysis of MIA robustness under systematically varied distributional overlap and difficulty. Experiments on WikiMIA and OLMoMIA show that EM-MIA outperforms existing baselines, particularly in settings with clear distributional separability. We highlight scenarios where EM-MIA succeeds in practical settings with partial distributional overlap, while failure cases expose fundamental limitations of current MIA methods under near-identical conditions. We release our code and evaluation pipeline to encourage reproducible and robust MIA research.


翻译:成员推理攻击旨在判断特定样本是否被用于训练给定语言模型。尽管已有研究探索了基于提示的攻击方法(如ReCALL),但这些方法严重依赖于"使用已知非成员样本作为提示能可靠抑制模型对非成员查询的响应"这一假设。本文提出EM-MIA——一种无需标注非成员样本、通过期望最大化策略迭代优化前缀有效性与成员评分的新型成员推理方法。为支持受控评估,我们构建了OLMoMIA基准测试集,该系统支持在分布重叠度与难度受控变量下分析成员推理攻击的鲁棒性。在WikiMIA和OLMoMIA上的实验表明,EM-MIA在分布可分性明确的场景中显著优于现有基线方法。我们重点展示了EM-MIA在部分分布重叠的实际场景中的成功案例,同时通过失败案例揭示了当前成员推理方法在近同分布条件下的根本局限。我们公开了代码与评估流程,以促进可复现且鲁棒的成员推理研究。

0
下载
关闭预览

相关内容

什么是后训练?大语言模型训练后优化方法综述,87页pdf
大语言模型训练数据
专知会员服务
71+阅读 · 2024年11月22日
大型语言模型的高效提示方法综述
专知会员服务
75+阅读 · 2024年4月2日
大型语言模型在预测和异常检测中的应用综述
专知会员服务
70+阅读 · 2024年2月19日
大型语言模型在表格推理中的应用综述
专知会员服务
47+阅读 · 2024年2月14日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
论文浅尝 | 基于深度强化学习的远程监督数据集的降噪
开放知识图谱
29+阅读 · 2019年1月17日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员