Deep neural network (DNN) models are valuable intellectual property of model owners, constituting a competitive advantage. Therefore, it is crucial to develop techniques to protect against model theft. Model ownership resolution (MOR) is a class of techniques that can deter model theft. A MOR scheme enables an accuser to assert an ownership claim for a suspect model by presenting evidence, such as a watermark or fingerprint, to show that the suspect model was stolen or derived from a source model owned by the accuser. Most of the existing MOR schemes prioritize robustness against malicious suspects, ensuring that the accuser will win if the suspect model is indeed a stolen model. In this paper, we show that common MOR schemes in the literature are vulnerable to a different, equally important but insufficiently explored, robustness concern: a malicious accuser. We show how malicious accusers can successfully make false claims against independent suspect models that were not stolen. Our core idea is that a malicious accuser can deviate (without detection) from the specified MOR process by finding (transferable) adversarial examples that successfully serve as evidence against independent suspect models. To this end, we first generalize the procedures of common MOR schemes and show that, under this generalization, defending against false claims is as challenging as preventing (transferable) adversarial examples. Via systematic empirical evaluation we demonstrate that our false claim attacks always succeed in all prominent MOR schemes with realistic configurations, including against a real-world model: Amazon's Rekognition API.


翻译:深度神经网络模型是模型所有者宝贵的知识产权,构成了其竞争优势。因此,开发模型保护技术以防止模型盗窃至关重要。模型所有权解析是一类能够威慑模型盗窃的技术。MOR方案使指控者能够通过呈现证据(如水印或指纹)来主张对嫌疑模型的所有权,以证明该嫌疑模型是从指控者拥有的源模型窃取或衍生而来。现有的大多数MOR方案优先考虑针对恶意嫌疑人的鲁棒性,确保当嫌疑模型确实为被窃模型时指控者胜诉。本文表明,文献中常见的MOR方案存在另一个不同但同等重要且尚未充分探讨的鲁棒性问题:恶意指控者。我们展示了恶意指控者如何能够成功地对未被窃取的独立嫌疑模型提出虚假声称。我们的核心思想是,恶意指控者可以通过寻找能作为针对独立嫌疑模型证据的(可迁移)对抗性样本,从而(在不被察觉的情况下)偏离指定的MOR流程。为此,我们首先归纳了常见MOR方案的流程,并表明在这种归纳下,防御虚假声称与防止(可迁移)对抗性样本同样具有挑战性。通过系统性实证评估,我们证明所有主流MOR方案在现实配置下(包括针对真实世界模型:亚马逊的Rekognition API)均能成功实施我们的虚假声称攻击。

0
下载
关闭预览

相关内容

对抗样本由Christian Szegedy等人提出,是指在数据集中通过故意添加细微的干扰所形成的输入样本,导致模型以高置信度给出一个错误的输出。在正则化背景下,通过对抗训练减少原有独立同分布的测试集的错误率——在对抗扰动的训练集样本上训练网络。 对抗样本是指通过在数据中故意添加细微的扰动生成的一种输入样本,能够导致神经网络模型给出一个错误的预测结果。 实质:对抗样本是通过向输入中加入人类难以察觉的扰动生成,能够改变人工智能模型的行为。其基本目标有两个,一是改变模型的预测结果;二是加入到输入中的扰动在人类看起来不足以引起模型预测结果的改变,具有表面上的无害性。对抗样本的相关研究对自动驾驶、智能家居等应用场景具有非常重要的意义。
战争武装冲突时期的隐私权和数据保护,333页pdf
专知会员服务
16+阅读 · 2022年6月24日
知识增强预训练语言模型:全面综述
专知会员服务
97+阅读 · 2021年10月19日
【PKDD2020教程】可解释人工智能XAI:算法到应用,200页ppt
专知会员服务
101+阅读 · 2020年10月13日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
如何在云中部署低延迟解决方案
InfoQ
0+阅读 · 2022年8月7日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
已删除
哈佛商业评论
10+阅读 · 2018年9月7日
【推荐】(Keras)LSTM多元时序预测教程
机器学习研究会
25+阅读 · 2017年8月14日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
8+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月29日
VIP会员
最新内容
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
2+阅读 · 今天11:43
网状网络及其在军事领域的运用
专知会员服务
5+阅读 · 今天6:18
无美国参与的欧洲战争方式(万字长文)
专知会员服务
6+阅读 · 今天5:54
《国防领域敏感性分析白皮书》
专知会员服务
7+阅读 · 今天3:42
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
7+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
9+阅读 · 6月24日
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
7+阅读 · 6月24日
在人工智能加速决策环境中拓展OODA循环
专知会员服务
9+阅读 · 6月24日
相关基金
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
8+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员