The increasing pace in genomic research has brought a high demand for genomic datasets in recent years, yet few studies have released their datasets due to privacy concerns. This poses a challenge in terms of reproducing and validating published research findings, which is necessary to avoid errors (e.g., miscalculations) during the research process.In this work, in order to promote reproducibility of genome-related research, we propose a novel scheme for sharing genomic datasets under differential privacy, which consists of two stages. In the first stage, the scheme generates a noisy copy of the genomic dataset by conducting the XOR operation between the binarized (encoded) dataset and binary noises. To preserve the biological features, entries of the noises are generated by considering the inherent correlation properties of the genomic data (obtained from publicly available datasets). In the second stage, the scheme alters the value distribution of each column in the generated copy to align with the privacy-preserving version (protected by the Laplace mechanism) of the distribution in the original dataset using optimal transport. We evaluate the proposed scheme on two real-life genomic datasets from OpenSNP compared with two existing privacy-preserving techniques, both of which are winners from NIST challenges. In regard to reproducing findings of the genome-wide association studies (considering the $\chi^2$ tests and the odd ratio tests), our scheme can detect even slight errors (e.g., miscalculations) that may occur during the research process, while other methods cannot even identify significant errors. Additionally, we indicate via experiments that our scheme has better data utility and achieves higher protection against membership inference attacks with lower time complexity.


翻译:近年来,基因组研究的加速发展对基因组数据集的需求日益增长,然而由于隐私问题,很少有研究公开其数据集。这给验证和复现已发表的研究成果带来了挑战——而这一过程对于避免研究过程中出现的错误(如计算失误)至关重要。为促进基因组相关研究的可复现性,本文提出了一种基于差分隐私的基因组数据集共享新方案,该方案包含两个阶段。第一阶段:通过对二值化(编码)数据集与二进制噪声进行异或运算,生成原始数据集的含噪副本。为保留生物特征,噪声项基于公开数据集中基因组数据的固有相关性生成。第二阶段:利用最优传输方法,调整生成副本中各列的值分布,使其与原始数据集的隐私保护版本(经拉普拉斯机制保护后的分布)对齐。我们在OpenSNP的两个真实基因组数据集上评估了该方案,并与两种现存隐私保护技术(均为美国国家标准与技术研究院挑战赛优胜方案)进行了对比。在复现全基因组关联分析结果(基于χ²检验与比值比检验)方面,本方案能够检测研究过程中可能出现的细微错误(如计算失误),而其他方法甚至无法识别显著错误。此外,实验表明本方案具有更优的数据效用,能以更低的时间复杂度实现对成员推理攻击的更强防护。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
专知会员服务
162+阅读 · 2020年1月16日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
105+阅读 · 2019年10月9日
GNN 新基准!Long Range Graph Benchmark
图与推荐
0+阅读 · 2022年10月18日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
LibRec 精选:推荐系统的论文与源码
LibRec智能推荐
14+阅读 · 2018年11月29日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年6月2日
VIP会员
最新内容
“史诗怒火”行动与“AI中心战”模式的浮现
专知会员服务
0+阅读 · 17分钟前
【CVPR2026教程】扩散模型的解析理解
专知会员服务
0+阅读 · 59分钟前
马赛克战:俄乌战场透析
专知会员服务
13+阅读 · 今天4:12
《利用人工智能增强军事决策》
专知会员服务
4+阅读 · 今天4:09
《自动机器学习在军事数据耕耘法中的应用》
专知会员服务
6+阅读 · 今天4:02
为何指挥所生存能力要求范式转变
专知会员服务
5+阅读 · 今天3:54
打造“新蛛网”模式与高科技动员
专知会员服务
4+阅读 · 今天3:33
“蛛网”行动一周年:远程无人机战争
专知会员服务
3+阅读 · 今天3:23
【剑桥博士论文】智能体-环境协同优化
专知会员服务
7+阅读 · 6月9日
相关资讯
GNN 新基准!Long Range Graph Benchmark
图与推荐
0+阅读 · 2022年10月18日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
LibRec 精选:推荐系统的论文与源码
LibRec智能推荐
14+阅读 · 2018年11月29日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员