Model Stealing Through the Lens of Model Multiplicity - 专知论文

会员服务 ·

0

模型窃取 · 多样性 · 攻击 · 目标模型 · 高保真 ·

Model Stealing Through the Lens of Model Multiplicity

翻译：透过模型多样性的视角审视模型窃取行为

Eliott Baltz,Satoshi Hara,Ulrich Aïvodji

from arxiv, 14 pages, 15 figures

Model stealing attacks, where adversaries create high-fidelity surrogate models, are a significant threat to the intellectual property of machine learning services. Conventional wisdom suggests these surrogates could provide adversaries with economic leverage comparable to the original service providers. This paper challenges this assumption by evaluating model stealing attacks beyond mere fidelity to the target model. Because query-based extraction provides only partial supervision of the target's input-output behavior, the surrogate is not uniquely identified: many near-optimal surrogates can achieve comparable fidelity while differing in deployment-relevant properties. Instead of performing a classic learning-based model stealing attack, we compute the Rashomon Set (i.e., the set of almost-equally-accurate models) of surrogate models, and evaluate its diversity using multiplicity metrics (ambiguity, discrepancy, and Rashomon Capacity) and group fairness metrics. Across tabular, medical imaging, and NLP tasks, our experiments on real-world datasets reveal that despite exhibiting similar fidelity to the target model, surrogate models can display significant variances in other critical performance metrics. These findings cast doubt on the presumed equivalence between high-fidelity surrogates and the target model in practical deployment scenarios.

翻译：模型窃取攻击（即攻击者构建高保真替代模型的行为）对机器学习服务的知识产权构成重大威胁。传统观点认为，这些替代模型可使攻击者获得与原始服务提供者相当的经济优势。本文通过评估超越目标模型保真度的模型窃取攻击，对这一假设提出质疑。由于基于查询的提取仅提供目标输入输出行为的部分监督，替代模型并非唯一确定：大量近优替代模型能在保持相似保真度的同时，展现出部署相关属性的显著差异。我们不采用经典的学习型模型窃取方法，而是计算替代模型的Rashomon集合（即精度几乎相等的模型集合），并利用多样性指标（模糊性、差异性与Rashomon容量）及群体公平性指标评估其多样性。在表格数据、医学影像及自然语言处理任务中，基于真实数据集的实验表明，尽管替代模型与目标模型在保真度上表现相似，但在其他关键性能指标上可能存在显著差异。这些发现对高保真替代模型在实际部署场景中与目标模型等价性的传统认知提出了质疑。

0

相关内容

模型窃取

深度学习模型反演攻击与防御：全面综述

深度学习模型反演攻击与防御：全面综述

专知会员服务

27+阅读 · 2025年2月3日

ACM Computing Surveys | 港大等基于可靠性视角的深度伪造检测综述，覆盖主流基准库、模型

ACM Computing Surveys | 港大等基于可靠性视角的深度伪造检测综述，覆盖主流基准库、模型

专知会员服务

17+阅读 · 2025年1月12日

深度学习模型安全：威胁与防御，176页pdf

深度学习模型安全：威胁与防御，176页pdf

专知会员服务

28+阅读 · 2024年12月13日

多视角看大模型安全及实践

多视角看大模型安全及实践

专知会员服务

70+阅读 · 2024年4月1日

深度学习如何可信？港理工等最新《2D和3D深度学习模型对抗性攻击的鲁棒性和安全性》综述，涵盖170篇论文

深度学习如何可信？港理工等最新《2D和3D深度学习模型对抗性攻击的鲁棒性和安全性》综述，涵盖170篇论文

专知会员服务

29+阅读 · 2023年10月3日

【AI+军事】附论文《敏感还是不敏感？如何攻击和捍卫文件安全分类模型》

【AI+军事】附论文《敏感还是不敏感？如何攻击和捍卫文件安全分类模型》

专知会员服务

19+阅读 · 2022年4月26日

黑盒机器学习模型的成员推断攻击研究

专知会员服务

24+阅读 · 2021年8月22日

针对深度学习模型的对抗性攻击与防御

专知会员服务

49+阅读 · 2021年5月17日

网络攻击模型研究综述

专知会员服务

57+阅读 · 2020年12月28日

机器学习模型安全与隐私研究综述

机器学习模型安全与隐私研究综述

专知会员服务

116+阅读 · 2020年11月12日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

模型攻击：鲁棒性联邦学习研究的最新进展

模型攻击：鲁棒性联邦学习研究的最新进展

机器之心

35+阅读 · 2020年6月3日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

一文读懂机器学习模型的选择与取舍

一文读懂机器学习模型的选择与取舍

DBAplus社群

13+阅读 · 2019年8月25日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

【学界】机器学习模型的“可解释性”到底有多重要？

【学界】机器学习模型的“可解释性”到底有多重要？

GAN生成式对抗网络

12+阅读 · 2018年3月3日

机器学习模型的“可解释性”到底有多重要？

机器学习模型的“可解释性”到底有多重要？

中国科学院自动化研究所

20+阅读 · 2018年3月1日

推荐｜机器学习中的模型评价、模型选择和算法选择！

推荐｜机器学习中的模型评价、模型选择和算法选择！

全球人工智能

10+阅读 · 2018年2月5日

面向时空特性的社交网络推演攻击与隐私保护关键技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

抽样环境下基于流记录的行为特征分析与多分类器识别模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于密集快速特征提取的可视媒体篡改检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于成像环境约束的低质量图像篡改取证研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于网络活动分析的窃密木马检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向隐私保护的云数据访问模型与方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

Random Erasing vs. Model Inversion: A Promising Defense or a False Hope?

Arxiv

0+阅读 · 6月15日

The Anatomy of Scam Scenarios: Large-Scale Characterization and Conversation-Aware Detection

Arxiv

0+阅读 · 6月14日

Let Them Steal: Trapping Large Language Model Extraction Attacks with Knowledge Honeypot

Arxiv

0+阅读 · 6月14日

COGNITION: From Evaluation to Defense against Multimodal LLM CAPTCHA Solvers

Arxiv

0+阅读 · 6月11日

T2S: A Rehearsal-Based Approach for Extraction-Resistant Model Watermarking

Arxiv

0+阅读 · 6月10日

Benchmarking Knowledge-Extraction Attack and Defense on Retrieval-Augmented Generation

Arxiv

0+阅读 · 6月8日

DPAgent-in-the-Middle: Agentic Defense and Repair Against AI-Groomed Deceptive Patterns

Arxiv

0+阅读 · 6月5日

Random Erasing vs. Model Inversion: A Promising Defense or a False Hope?

Arxiv

0+阅读 · 6月1日

Searching for Privacy Risks in LLM Agents via Simulation

Arxiv

0+阅读 · 5月8日

Structured Visual Narratives Undermine Safety Alignment in Multimodal Large Language Models

Arxiv

0+阅读 · 4月23日

VIP会员

文章信息

相关主题

最新内容

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

“史诗怒火”行动：现代多域作战的重要节点

“史诗怒火”行动：现代多域作战的重要节点

专知会员服务

8+阅读 · 7月30日

《下一代无线网络中的多无人机通信资源管理》

《下一代无线网络中的多无人机通信资源管理》

专知会员服务

8+阅读 · 7月30日

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

专知会员服务

9+阅读 · 7月30日

《人机协同在安全关键型操作决策中的应用》120页

《人机协同在安全关键型操作决策中的应用》120页

专知会员服务

8+阅读 · 7月30日

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

专知会员服务

6+阅读 · 7月30日

相关VIP内容

深度学习模型反演攻击与防御：全面综述

深度学习模型反演攻击与防御：全面综述

专知会员服务

27+阅读 · 2025年2月3日

ACM Computing Surveys | 港大等基于可靠性视角的深度伪造检测综述，覆盖主流基准库、模型

ACM Computing Surveys | 港大等基于可靠性视角的深度伪造检测综述，覆盖主流基准库、模型

专知会员服务

17+阅读 · 2025年1月12日

深度学习模型安全：威胁与防御，176页pdf

深度学习模型安全：威胁与防御，176页pdf

专知会员服务

28+阅读 · 2024年12月13日

多视角看大模型安全及实践

多视角看大模型安全及实践

专知会员服务

70+阅读 · 2024年4月1日

深度学习如何可信？港理工等最新《2D和3D深度学习模型对抗性攻击的鲁棒性和安全性》综述，涵盖170篇论文

深度学习如何可信？港理工等最新《2D和3D深度学习模型对抗性攻击的鲁棒性和安全性》综述，涵盖170篇论文

专知会员服务

29+阅读 · 2023年10月3日

【AI+军事】附论文《敏感还是不敏感？如何攻击和捍卫文件安全分类模型》

【AI+军事】附论文《敏感还是不敏感？如何攻击和捍卫文件安全分类模型》

专知会员服务

19+阅读 · 2022年4月26日

黑盒机器学习模型的成员推断攻击研究

专知会员服务

24+阅读 · 2021年8月22日

针对深度学习模型的对抗性攻击与防御

专知会员服务

49+阅读 · 2021年5月17日

网络攻击模型研究综述

专知会员服务

57+阅读 · 2020年12月28日

机器学习模型安全与隐私研究综述

机器学习模型安全与隐私研究综述

专知会员服务

116+阅读 · 2020年11月12日

热门VIP内容

开通专知VIP会员享更多权益服务

隐身技术前沿综述：物理机理、工程实践与战略展望

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

相关资讯

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

模型攻击：鲁棒性联邦学习研究的最新进展

模型攻击：鲁棒性联邦学习研究的最新进展

机器之心

35+阅读 · 2020年6月3日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

一文读懂机器学习模型的选择与取舍

一文读懂机器学习模型的选择与取舍

DBAplus社群

13+阅读 · 2019年8月25日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

【学界】机器学习模型的“可解释性”到底有多重要？

【学界】机器学习模型的“可解释性”到底有多重要？

GAN生成式对抗网络

12+阅读 · 2018年3月3日

机器学习模型的“可解释性”到底有多重要？

机器学习模型的“可解释性”到底有多重要？

中国科学院自动化研究所

20+阅读 · 2018年3月1日

推荐｜机器学习中的模型评价、模型选择和算法选择！

推荐｜机器学习中的模型评价、模型选择和算法选择！

全球人工智能

10+阅读 · 2018年2月5日

相关论文

Random Erasing vs. Model Inversion: A Promising Defense or a False Hope?

Arxiv

0+阅读 · 6月15日

The Anatomy of Scam Scenarios: Large-Scale Characterization and Conversation-Aware Detection

Arxiv

0+阅读 · 6月14日

Let Them Steal: Trapping Large Language Model Extraction Attacks with Knowledge Honeypot

Arxiv

0+阅读 · 6月14日

COGNITION: From Evaluation to Defense against Multimodal LLM CAPTCHA Solvers

Arxiv

0+阅读 · 6月11日

T2S: A Rehearsal-Based Approach for Extraction-Resistant Model Watermarking

Arxiv

0+阅读 · 6月10日

Benchmarking Knowledge-Extraction Attack and Defense on Retrieval-Augmented Generation

Arxiv

0+阅读 · 6月8日

DPAgent-in-the-Middle: Agentic Defense and Repair Against AI-Groomed Deceptive Patterns

Arxiv

0+阅读 · 6月5日

Random Erasing vs. Model Inversion: A Promising Defense or a False Hope?

Arxiv

0+阅读 · 6月1日

Searching for Privacy Risks in LLM Agents via Simulation

Arxiv

0+阅读 · 5月8日

Structured Visual Narratives Undermine Safety Alignment in Multimodal Large Language Models

Arxiv

0+阅读 · 4月23日

相关基金

面向时空特性的社交网络推演攻击与隐私保护关键技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

抽样环境下基于流记录的行为特征分析与多分类器识别模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于密集快速特征提取的可视媒体篡改检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于成像环境约束的低质量图像篡改取证研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于网络活动分析的窃密木马检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向隐私保护的云数据访问模型与方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员