Deep learning, especially deep neural networks (DNNs), has been widely and successfully adopted in many critical applications for its high effectiveness and efficiency. The rapid development of DNNs has benefited from the existence of some high-quality datasets ($e.g.$, ImageNet), which allow researchers and developers to easily verify the performance of their methods. Currently, almost all existing released datasets require that they can only be adopted for academic or educational purposes rather than commercial purposes without permission. However, there is still no good way to ensure that. In this paper, we formulate the protection of released datasets as verifying whether they are adopted for training a (suspicious) third-party model, where defenders can only query the model while having no information about its parameters and training details. Based on this formulation, we propose to embed external patterns via backdoor watermarking for the ownership verification to protect them. Our method contains two main parts, including dataset watermarking and dataset verification. Specifically, we exploit poison-only backdoor attacks ($e.g.$, BadNets) for dataset watermarking and design a hypothesis-test-guided method for dataset verification. We also provide some theoretical analyses of our methods. Experiments on multiple benchmark datasets of different tasks are conducted, which verify the effectiveness of our method. The code for reproducing main experiments is available at \url{https://github.com/THUYimingLi/DVBW}.


翻译:深度学习,特别是深度神经网络(DNNs),因其高效性和有效性,已被广泛且成功地应用于众多关键领域。DNNs的快速发展得益于一些高质量数据集(例如ImageNet)的存在,这些数据集使研究人员和开发者能够轻松验证其方法的性能。目前,几乎所有已发布的数据集都要求未经许可仅可用于学术或教育目的,而非商业用途。然而,目前尚无有效手段确保这一限制得到遵守。本文将对已发布数据集的保护问题表述为:验证这些数据集是否被用于训练(可疑的)第三方模型,其中防御方只能查询该模型,而对其参数及训练细节一无所知。基于这一表述,我们提出通过后门水印嵌入外部模式,以进行所有权验证来保护数据集。我们的方法包含两个主要部分:数据集水印与数据集验证。具体而言,我们利用仅投毒的后门攻击(例如BadNets)进行数据集水印,并设计了一种基于假设检验的方法进行数据集验证。此外,我们还对所提方法进行了理论分析。在多个不同任务的基准数据集上进行了实验,结果验证了我们方法的有效性。用于复现主要实验的代码已开源至 \url{https://github.com/THUYimingLi/DVBW}。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
专知会员服务
46+阅读 · 2020年10月31日
专知会员服务
61+阅读 · 2020年3月19日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
超全的人脸识别数据集汇总,附打包下载
极市平台
90+阅读 · 2020年3月7日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集
泡泡机器人SLAM
11+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
LibRec 精选:推荐系统的论文与源码
LibRec智能推荐
14+阅读 · 2018年11月29日
【数据集】新的YELP数据集官方下载
机器学习研究会
16+阅读 · 2017年8月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2023年5月17日
Arxiv
15+阅读 · 2020年10月26日
Arxiv
16+阅读 · 2020年5月20日
On Feature Normalization and Data Augmentation
Arxiv
15+阅读 · 2020年2月25日
Arxiv
113+阅读 · 2020年2月5日
VIP会员
最新内容
AUTOLAB:86亿Token实测前沿模型的长程自动科研能力
乌克兰战场背后的新武器
专知会员服务
4+阅读 · 今天4:55
基于博弈论的陆军人机协同(长文报告)
专知会员服务
10+阅读 · 今天1:54
美国陆军航空兵:以愿景引领转型
专知会员服务
6+阅读 · 今天1:38
《多域战场上反制小型无人机系统》150页
专知会员服务
16+阅读 · 6月11日
战场人工智能:增强陆地作战能力的发现与要求
相关资讯
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
超全的人脸识别数据集汇总,附打包下载
极市平台
90+阅读 · 2020年3月7日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集
泡泡机器人SLAM
11+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
LibRec 精选:推荐系统的论文与源码
LibRec智能推荐
14+阅读 · 2018年11月29日
【数据集】新的YELP数据集官方下载
机器学习研究会
16+阅读 · 2017年8月31日
相关论文
Arxiv
0+阅读 · 2023年5月17日
Arxiv
15+阅读 · 2020年10月26日
Arxiv
16+阅读 · 2020年5月20日
On Feature Normalization and Data Augmentation
Arxiv
15+阅读 · 2020年2月25日
Arxiv
113+阅读 · 2020年2月5日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员