CheckMIABench: Firm Foundations For Membership Inference Attacks on Language Models - 专知论文

会员服务 ·

0

攻击 · 语言模型 · 成员推理 · 构建 · 基准 ·

CheckMIABench: Firm Foundations For Membership Inference Attacks on Language Models

翻译：CheckMIABench：语言模型成员推理攻击的坚实基础

Jeffrey G. Wang,Jason Wang,Marvin Li,Seth Neel

Membership inference attacks (MIAs) are a canonical way to assess a machine learning model's privacy properties. Although several attempts have been made to evaluate MIAs on language models, the extant literature has suffered numerous difficulties in constructing clean evaluations to test new techniques. In particular, subtle distribution shifts between member and non-member sets can undermine the statistical validity of MIAs; recent work has underscored this by showing that "blind" methods with no access to the underlying model can perform far better than published methods on the same benchmarks. This paper constructs a benchmark for principled evaluation of MIAs against LLMs, by leveraging the insight that training data before and after a fixed point during training are drawn from the same distribution. Therefore, all open-source models with intermediate checkpoints and public training data can be converted into MIA testbeds. We apply our framework to a half-dozen published attacks on the Pythia and OLMo family of models, from 70M to 7B parameters. To facilitate further privacy research, we open-source a modular library for designing and implementing attacks in this setting: https://github.com/safr-ai-lab/pandora_llm.

翻译：成员推理攻击（MIA）是评估机器学习模型隐私属性的标准方法。尽管已有若干尝试在语言模型上评估MIA，但现有文献在构建用于测试新技术的干净评估时仍面临诸多困难。具体而言，成员集与非成员集之间的细微分布偏移可能破坏MIA的统计有效性；近期研究通过展示“盲”方法（无需访问底层模型）在相同基准上可显著优于已发表方法，进一步凸显了这一问题。本文利用训练过程中固定时间点前后所采训练数据均来自同一分布的洞察，构建了一个针对大语言模型进行原则性评估的MIA基准。因此，所有具有中间检查点的开源模型及公开训练数据均可转化为MIA测试平台。我们将该框架应用于六种已发表的攻击，覆盖参数量从70M到7B的Pythia和OLMo模型系列。为促进隐私研究，我们开源了一个模块化库，用于在该场景下设计与实现攻击：https://github.com/safr-ai-lab/pandora_llm。

0

相关内容

【CMU博士论文】语言建模中数据-训练-推理交互的数学基础

【CMU博士论文】语言建模中数据-训练-推理交互的数学基础

专知会员服务

23+阅读 · 1月26日

大语言模型的智能体化推理

大语言模型的智能体化推理

专知会员服务

35+阅读 · 1月21日

【NeurIPS2025】语言模型是高效的推理者吗？——来自逻辑编程的视角

【NeurIPS2025】语言模型是高效的推理者吗？——来自逻辑编程的视角

专知会员服务

17+阅读 · 2025年11月3日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

【CMU博士论文】使用结构化推理增强语言模型，320页pdf

【CMU博士论文】使用结构化推理增强语言模型，320页pdf

专知会员服务

34+阅读 · 2024年6月29日

大型语言模型在表格推理中的应用综述

大型语言模型在表格推理中的应用综述

专知会员服务

48+阅读 · 2024年2月14日

「大型语言模型推理」综述

「大型语言模型推理」综述

专知会员服务

96+阅读 · 2022年12月24日

黑盒机器学习模型的成员推断攻击研究

专知会员服务

24+阅读 · 2021年8月22日

【AAAI2021】知识迁移的机器学习成员隐私保护，57页ppt

【AAAI2021】知识迁移的机器学习成员隐私保护，57页ppt

专知会员服务

28+阅读 · 2021年2月9日

【伯克利】用于文本推理的神经模块网络，Neural Module Networks for Reasoning over Text

【伯克利】用于文本推理的神经模块网络，Neural Module Networks for Reasoning over Text

专知会员服务

35+阅读 · 2019年12月10日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

94+阅读 · 2022年4月17日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

人工智能头条

10+阅读 · 2018年6月29日

FaceForensics：一个用于人脸伪造检测的大型视频数据集

FaceForensics：一个用于人脸伪造检测的大型视频数据集

论智

18+阅读 · 2018年4月14日

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

专知

29+阅读 · 2017年12月12日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

面向时空特性的社交网络推演攻击与隐私保护关键技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于格值逻辑的语言真值α-群锁语义归结自动推理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于网络活动分析的窃密木马检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

即时通讯匿名隐通道系统模型与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

可证明的网络和数据匿名性及隐私增强身份管理关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

Membership Inference Attacks against Large Audio Language Models

Arxiv

0+阅读 · 6月16日

Causal Evaluation of Membership Inference Attacks

Arxiv

0+阅读 · 6月15日

Are Neuro-Inspired Multi-Modal Vision-Language Models Resilient to Membership Inference Privacy Leakage?

Arxiv

0+阅读 · 6月13日

VLALeaks: Membership Inference Attacks against Vision-Language-Action Models

Arxiv

0+阅读 · 6月13日

MirrorCheck: Efficient Adversarial Defense for Vision-Language Models

Arxiv

0+阅读 · 6月12日

Causal Evaluation of Membership Inference Attacks

Arxiv

0+阅读 · 6月5日

Enhancing Membership Inference Attacks on Diffusion Models from a Frequency-Domain Perspective

Arxiv

0+阅读 · 5月28日

Assessing Per-Sample Membership Inference Vulnerability without Retraining

Arxiv

0+阅读 · 5月26日

On Reliability of Efficient Membership Inference Vulnerability Evaluation

Arxiv

0+阅读 · 5月25日

FERMI: Exploiting Relations for Membership Inference Against Tabular Diffusion Models

Arxiv

0+阅读 · 5月12日

VIP会员

文章信息

相关主题

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

0+阅读 · 今天2:42

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

1+阅读 · 今天2:37

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

2+阅读 · 今天2:23

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

5+阅读 · 今天2:21

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

2+阅读 · 今天1:46

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

相关VIP内容

【CMU博士论文】语言建模中数据-训练-推理交互的数学基础

【CMU博士论文】语言建模中数据-训练-推理交互的数学基础

专知会员服务

23+阅读 · 1月26日

大语言模型的智能体化推理

大语言模型的智能体化推理

专知会员服务

35+阅读 · 1月21日

【NeurIPS2025】语言模型是高效的推理者吗？——来自逻辑编程的视角

【NeurIPS2025】语言模型是高效的推理者吗？——来自逻辑编程的视角

专知会员服务

17+阅读 · 2025年11月3日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

【CMU博士论文】使用结构化推理增强语言模型，320页pdf

【CMU博士论文】使用结构化推理增强语言模型，320页pdf

专知会员服务

34+阅读 · 2024年6月29日

大型语言模型在表格推理中的应用综述

大型语言模型在表格推理中的应用综述

专知会员服务

48+阅读 · 2024年2月14日

「大型语言模型推理」综述

「大型语言模型推理」综述

专知会员服务

96+阅读 · 2022年12月24日

黑盒机器学习模型的成员推断攻击研究

专知会员服务

24+阅读 · 2021年8月22日

【AAAI2021】知识迁移的机器学习成员隐私保护，57页ppt

【AAAI2021】知识迁移的机器学习成员隐私保护，57页ppt

专知会员服务

28+阅读 · 2021年2月9日

【伯克利】用于文本推理的神经模块网络，Neural Module Networks for Reasoning over Text

【伯克利】用于文本推理的神经模块网络，Neural Module Networks for Reasoning over Text

专知会员服务

35+阅读 · 2019年12月10日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

94+阅读 · 2022年4月17日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

人工智能头条

10+阅读 · 2018年6月29日

FaceForensics：一个用于人脸伪造检测的大型视频数据集

FaceForensics：一个用于人脸伪造检测的大型视频数据集

论智

18+阅读 · 2018年4月14日

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

专知

29+阅读 · 2017年12月12日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

Membership Inference Attacks against Large Audio Language Models

Arxiv

0+阅读 · 6月16日

Causal Evaluation of Membership Inference Attacks

Arxiv

0+阅读 · 6月15日

Are Neuro-Inspired Multi-Modal Vision-Language Models Resilient to Membership Inference Privacy Leakage?

Arxiv

0+阅读 · 6月13日

VLALeaks: Membership Inference Attacks against Vision-Language-Action Models

Arxiv

0+阅读 · 6月13日

MirrorCheck: Efficient Adversarial Defense for Vision-Language Models

Arxiv

0+阅读 · 6月12日

Causal Evaluation of Membership Inference Attacks

Arxiv

0+阅读 · 6月5日

Enhancing Membership Inference Attacks on Diffusion Models from a Frequency-Domain Perspective

Arxiv

0+阅读 · 5月28日

Assessing Per-Sample Membership Inference Vulnerability without Retraining

Arxiv

0+阅读 · 5月26日

On Reliability of Efficient Membership Inference Vulnerability Evaluation

Arxiv

0+阅读 · 5月25日

FERMI: Exploiting Relations for Membership Inference Against Tabular Diffusion Models

Arxiv

0+阅读 · 5月12日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

面向时空特性的社交网络推演攻击与隐私保护关键技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于格值逻辑的语言真值α-群锁语义归结自动推理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于网络活动分析的窃密木马检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

即时通讯匿名隐通道系统模型与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

可证明的网络和数据匿名性及隐私增强身份管理关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员