Counterfactual explanations (CFs) are increasingly integrated into Machine Learning as a Service (MLaaS) systems to improve transparency; however, ML models deployed via APIs are already vulnerable to privacy attacks such as membership inference and model extraction, and the impact of explanations on this threat landscape remains insufficiently understood. In this work, we focus on the problem of how CFs expand the attack surface of MLaaS by strengthening membership inference attacks (MIAs), and on the need to design defense mechanisms that mitigate this emerging risk without undermining utility and explainability. First, we systematically analyze how exposing CFs through query-based APIs enables more effective shadow-based MIAs. Second, we propose a defense framework that integrates Differential Privacy (DP) with Active Learning (AL) to jointly reduce memorization and limit effective training data exposure. Finally, we conduct an extensive empirical evaluation to characterize the three-way trade-off between privacy leakage, predictive performance, and explanation quality. Our findings highlight the need to carefully balance transparency, utility, and privacy in the responsible deployment of explainable MLaaS systems.


翻译:反事实解释正日益融入机器学习即服务系统以提升透明度;然而,通过API部署的机器学习模型本就面临成员推断和模型提取等隐私攻击的威胁,而解释机制对此类风险格局的影响尚未得到充分认知。本研究聚焦于反事实解释如何通过强化成员推断攻击来扩展MLaaS的攻击面,并探讨如何设计防御机制以缓解这一新兴风险,同时保持模型效用与可解释性。首先,我们系统分析了基于查询的API暴露反事实解释如何提升基于影子模型的成员推断攻击效能。其次,我们提出一个融合差分隐私与主动学习的防御框架,通过联合降低模型记忆效应与限制有效训练数据暴露来增强隐私保护。最后,我们通过大量实证评估刻画了隐私泄露、预测性能与解释质量之间的三重权衡关系。研究结果凸显了在负责任地部署可解释MLaaS系统时,必须审慎平衡透明度、效用与隐私保护。

0
下载
关闭预览

相关内容

面向深度学习的后门攻击及防御研究综述
专知会员服务
12+阅读 · 2025年7月4日
深度学习模型安全:威胁与防御,176页pdf
专知会员服务
28+阅读 · 2024年12月13日
专知会员服务
23+阅读 · 2021年8月22日
【AAAI2021】知识迁移的机器学习成员隐私保护,57页ppt
专知会员服务
28+阅读 · 2021年2月9日
专知会员服务
40+阅读 · 2020年12月20日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
联邦学习安全与隐私保护研究综述
专知
12+阅读 · 2020年8月7日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月18日
VIP会员
相关VIP内容
面向深度学习的后门攻击及防御研究综述
专知会员服务
12+阅读 · 2025年7月4日
深度学习模型安全:威胁与防御,176页pdf
专知会员服务
28+阅读 · 2024年12月13日
专知会员服务
23+阅读 · 2021年8月22日
【AAAI2021】知识迁移的机器学习成员隐私保护,57页ppt
专知会员服务
28+阅读 · 2021年2月9日
专知会员服务
40+阅读 · 2020年12月20日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员