Model Privacy: A Unified Framework for Understanding Model Stealing Attacks and Defenses - 专知论文

会员服务 ·

0

攻击 · 攻击与防御 · 模型窃取 · ML · 交互 ·

Model Privacy: A Unified Framework for Understanding Model Stealing Attacks and Defenses

翻译：模型隐私：理解模型窃取攻击与防御的统一框架

Ganghua Wang,Yuhong Yang,Jie Ding

from arxiv, Journal of the Royal Statistical Society Series B: Statistical Methodology, 2026

The use of machine learning (ML) has become increasingly prevalent in various domains, highlighting the importance of understanding and ensuring its safety. One pressing concern is the vulnerability of ML applications to model stealing attacks. These attacks involve adversaries attempting to recover a learned model through limited query-response interactions, such as those found in cloud-based services or on-chip artificial intelligence interfaces. While existing literature proposes various attack and defense strategies, these often lack a theoretical foundation and standardized evaluation criteria. In response, this work presents a framework called ``Model Privacy'', providing a foundation for comprehensively analyzing model stealing attacks and defenses. We establish a rigorous formulation for the threat model and objectives, propose methods to quantify the goodness of attack and defense strategies, and analyze the fundamental tradeoffs between utility and privacy in ML models. Our developed theory offers valuable insights into enhancing the security of ML models, especially highlighting the importance of the attack-specific structure of perturbations for effective defenses. We demonstrate the application of model privacy from the defender's perspective through various learning scenarios. Extensive experiments corroborate the insights and the effectiveness of defense mechanisms developed under the proposed framework.

翻译：机器学习（ML）在各领域的应用日益广泛，凸显了理解并确保其安全性的重要性。其中一项紧迫问题在于ML应用易遭受模型窃取攻击。此类攻击中， adversary试图通过有限的查询-响应交互（例如基于云的服务或片上人工智能接口中的交互）来恢复已学习的模型。尽管现有文献提出了多种攻击与防御策略，但这些策略往往缺乏理论基础和标准化评估准则。为此，本研究提出一个名为"模型隐私"的框架，为全面分析模型窃取攻击与防御提供了基础。我们建立了威胁模型与目标的严格形式化表述，提出了量化攻击与防御策略优劣的方法，并分析了ML模型中效用与隐私之间的基本权衡。所发展的理论为增强ML模型的安全性提供了宝贵见解，尤其凸显了防御中针对攻击特性的扰动结构的重要性。我们通过多种学习场景从防御者视角展示了模型隐私的应用。大量实验验证了所提见解以及该框架下开发防御机制的有效性。

0

相关内容

基座模型时代的 AI 安全：基于统一视角的全面综述

基座模型时代的 AI 安全：基于统一视角的全面综述

专知会员服务

14+阅读 · 3月27日

模型提取攻击与防御的系统综述：最新进展与展望

模型提取攻击与防御的系统综述：最新进展与展望

专知会员服务

22+阅读 · 2025年8月24日

深度学习模型反演攻击与防御：全面综述

深度学习模型反演攻击与防御：全面综述

专知会员服务

26+阅读 · 2025年2月3日

深度学习模型安全：威胁与防御，176页pdf

深度学习模型安全：威胁与防御，176页pdf

专知会员服务

28+阅读 · 2024年12月13日

针对深度学习模型的对抗性攻击与防御

专知会员服务

48+阅读 · 2021年5月17日

人工智能模型数据泄露的攻击与防御研究综述

人工智能模型数据泄露的攻击与防御研究综述

专知会员服务

77+阅读 · 2021年3月31日

面向深度学习模型的对抗攻击与防御方法综述

专知会员服务

96+阅读 · 2021年1月17日

深度学习模型的中毒攻击与防御综述

专知会员服务

67+阅读 · 2021年1月10日

机器学习的安全问题及隐私保护

专知会员服务

40+阅读 · 2020年12月20日

机器学习模型安全与隐私研究综述

机器学习模型安全与隐私研究综述

专知会员服务

115+阅读 · 2020年11月12日

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

专知

29+阅读 · 2023年4月11日

美国海军研究生院《人工智能系统：国防应用的独特挑战》中文版（含16页PDF、23页讲解ppt）

美国海军研究生院《人工智能系统：国防应用的独特挑战》中文版（含16页PDF、23页讲解ppt）

专知

31+阅读 · 2022年4月19日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

92+阅读 · 2022年4月17日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

【新书】机器学习算法，模型与应用，154页pdf

【新书】机器学习算法，模型与应用，154页pdf

专知

24+阅读 · 2022年1月20日

联邦学习安全与隐私保护研究综述

联邦学习安全与隐私保护研究综述

专知

12+阅读 · 2020年8月7日

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

专知

14+阅读 · 2019年10月31日

面对无处不在的黑客威胁，如何保护智能设备免受攻击？

面对无处不在的黑客威胁，如何保护智能设备免受攻击？

AI前线

21+阅读 · 2019年10月28日

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

专知

23+阅读 · 2019年4月15日

展望：模型驱动的深度学习

展望：模型驱动的深度学习

人工智能学家

12+阅读 · 2018年1月23日

移动互联网的用户隐私保护研究

国家自然科学基金

2+阅读 · 2017年12月31日

面向网络系统的一致性安全隐私分析与防护机制设计

国家自然科学基金

2+阅读 · 2017年12月31日

面向云计算数据隐私保护的访问控制策略模型与技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

即时通讯匿名隐通道系统模型与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

网络用户隐私担忧与主动性泄露隐私信息之间的悖论：理论探索和基于社交网络的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向隐私保护的云数据访问模型与方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

ProxyPrompt: Securing System Prompts against Prompt Extraction Attacks

Arxiv

0+阅读 · 4月29日

CrossGuard: Safeguarding MLLMs against Joint-Modal Implicit Malicious Attacks

Arxiv

0+阅读 · 4月26日

ConGISATA: A Framework for Continuous Gamified Information Security Awareness Training and Assessment

Arxiv

0+阅读 · 4月16日

Privacy Against Agnostic Inference Attacks in Vertical Federated Learning

Arxiv

0+阅读 · 4月13日

On the Vulnerability of Deep Automatic Modulation Classifiers to Explainable Backdoor Threats

Arxiv

0+阅读 · 3月26日

Trust as Monitoring: Evolutionary Dynamics of User Trust and AI Developer Behaviour

Arxiv

0+阅读 · 3月25日

Attack Assessment and Augmented Identity Recognition for Human Skeleton Data

Arxiv

0+阅读 · 3月25日

SecureBreak -- A dataset towards safe and secure models

Arxiv

0+阅读 · 3月23日

InferDPT: Privacy-Preserving Inference for Closed-box Large Language Model

Arxiv

0+阅读 · 3月18日

A Survey on Privacy in Graph Neural Networks: Attacks, Preservation, and Applications

Arxiv

11+阅读 · 2023年8月31日

VIP会员

文章信息

相关主题

攻击与防御

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

2+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

4+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

3+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

基座模型时代的 AI 安全：基于统一视角的全面综述

基座模型时代的 AI 安全：基于统一视角的全面综述

专知会员服务

14+阅读 · 3月27日

模型提取攻击与防御的系统综述：最新进展与展望

模型提取攻击与防御的系统综述：最新进展与展望

专知会员服务

22+阅读 · 2025年8月24日

深度学习模型反演攻击与防御：全面综述

深度学习模型反演攻击与防御：全面综述

专知会员服务

26+阅读 · 2025年2月3日

深度学习模型安全：威胁与防御，176页pdf

深度学习模型安全：威胁与防御，176页pdf

专知会员服务

28+阅读 · 2024年12月13日

针对深度学习模型的对抗性攻击与防御

专知会员服务

48+阅读 · 2021年5月17日

人工智能模型数据泄露的攻击与防御研究综述

人工智能模型数据泄露的攻击与防御研究综述

专知会员服务

77+阅读 · 2021年3月31日

面向深度学习模型的对抗攻击与防御方法综述

专知会员服务

96+阅读 · 2021年1月17日

深度学习模型的中毒攻击与防御综述

专知会员服务

67+阅读 · 2021年1月10日

机器学习的安全问题及隐私保护

专知会员服务

40+阅读 · 2020年12月20日

机器学习模型安全与隐私研究综述

机器学习模型安全与隐私研究综述

专知会员服务

115+阅读 · 2020年11月12日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

专知

29+阅读 · 2023年4月11日

美国海军研究生院《人工智能系统：国防应用的独特挑战》中文版（含16页PDF、23页讲解ppt）

美国海军研究生院《人工智能系统：国防应用的独特挑战》中文版（含16页PDF、23页讲解ppt）

专知

31+阅读 · 2022年4月19日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

92+阅读 · 2022年4月17日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

【新书】机器学习算法，模型与应用，154页pdf

【新书】机器学习算法，模型与应用，154页pdf

专知

24+阅读 · 2022年1月20日

联邦学习安全与隐私保护研究综述

联邦学习安全与隐私保护研究综述

专知

12+阅读 · 2020年8月7日

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

专知

14+阅读 · 2019年10月31日

面对无处不在的黑客威胁，如何保护智能设备免受攻击？

面对无处不在的黑客威胁，如何保护智能设备免受攻击？

AI前线

21+阅读 · 2019年10月28日

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

专知

23+阅读 · 2019年4月15日

展望：模型驱动的深度学习

展望：模型驱动的深度学习

人工智能学家

12+阅读 · 2018年1月23日

相关论文

ProxyPrompt: Securing System Prompts against Prompt Extraction Attacks

Arxiv

0+阅读 · 4月29日

CrossGuard: Safeguarding MLLMs against Joint-Modal Implicit Malicious Attacks

Arxiv

0+阅读 · 4月26日

ConGISATA: A Framework for Continuous Gamified Information Security Awareness Training and Assessment

Arxiv

0+阅读 · 4月16日

Privacy Against Agnostic Inference Attacks in Vertical Federated Learning

Arxiv

0+阅读 · 4月13日

On the Vulnerability of Deep Automatic Modulation Classifiers to Explainable Backdoor Threats

Arxiv

0+阅读 · 3月26日

Trust as Monitoring: Evolutionary Dynamics of User Trust and AI Developer Behaviour

Arxiv

0+阅读 · 3月25日

Attack Assessment and Augmented Identity Recognition for Human Skeleton Data

Arxiv

0+阅读 · 3月25日

SecureBreak -- A dataset towards safe and secure models

Arxiv

0+阅读 · 3月23日

InferDPT: Privacy-Preserving Inference for Closed-box Large Language Model

Arxiv

0+阅读 · 3月18日

A Survey on Privacy in Graph Neural Networks: Attacks, Preservation, and Applications

Arxiv

11+阅读 · 2023年8月31日

相关基金

移动互联网的用户隐私保护研究

国家自然科学基金

2+阅读 · 2017年12月31日

面向网络系统的一致性安全隐私分析与防护机制设计

国家自然科学基金

2+阅读 · 2017年12月31日

面向云计算数据隐私保护的访问控制策略模型与技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

即时通讯匿名隐通道系统模型与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

网络用户隐私担忧与主动性泄露隐私信息之间的悖论：理论探索和基于社交网络的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向隐私保护的云数据访问模型与方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员