Data on the Web has fueled much of the recent progress in AI. As more high-quality data becomes difficult to access, synthetic data is emerging as a promising solution for privacy-friendly data release and complementing real datasets in developing robust and safe AI. But there is limited work on decentralised, scalable and contributor-centric synthetic data generation systems. A recent proposal, called Libertas, allows data contributors to autonomously participate in joint computations over their Web data without relying on a trusted centre. Libertas uses Solid (Social Linked Data) and MPC (Secure Multi-Party Computation) to achieve this goal. Solid is a decentralised Web specification that lets anyone store their data securely in their personal decentralised data stores called Pods and control which applications have access to their data. MPC refers to the set of cryptographic methods for different parties to jointly compute a function over their inputs while keeping those inputs private. Thus, Libertas can also be used to generate synthetic data from otherwise inaccessible Web data in a responsible way, by ensuring contributor autonomy, decentralisation and privacy. However, the scalability of this system remains limited due to the high computation and communication costs in MPC. In this paper, we show how one can improve Libertas using secure enclaves (in addition to MPC) to address the scalability challenge. Secure enclaves such as Intel SGX rely on hardware based features for confidentiality and integrity of code and data. We discuss a principled approach for integrating SGX within the Libertas architecture for scalable differentially private synthetic data generation, and support our analysis with rigorous empirical results on simulated and real datasets and different synthetic data generation algorithms.


翻译:网络数据推动了人工智能领域近年来的许多进展。随着获取高质量数据日益困难,合成数据作为一种有前景的解决方案正在兴起,既能实现隐私友好的数据发布,又能补充真实数据集以开发更稳健、安全的人工智能。然而,关于去中心化、可扩展且以贡献者为中心的合成数据生成系统的研究仍然有限。最近提出的Libertas系统允许数据贡献者自主参与其网络数据的联合计算,而无需依赖可信中心。Libertas通过Solid(社交关联数据)和MPC(安全多方计算)实现这一目标。Solid是一种去中心化网络规范,允许任何人将数据安全存储在其个人去中心化数据存储单元(称为Pods)中,并控制哪些应用程序可以访问其数据。MPC则指代一系列密码学方法,使多方能在保持输入私密性的前提下联合计算函数。因此,通过确保贡献者自主性、去中心化和隐私保护,Libertas也能以负责任的方式从原本难以访问的网络数据中生成合成数据。然而,由于MPC存在较高的计算和通信成本,该系统的可扩展性仍然受限。本文展示了如何利用安全飞地(结合MPC)改进Libertas以应对可扩展性挑战。诸如Intel SGX等安全飞地依赖基于硬件的特性来保障代码与数据的机密性和完整性。我们探讨了将SGX集成到Libertas架构中以实现可扩展差分隐私合成数据生成的原理性方法,并通过在模拟与真实数据集及不同合成数据生成算法上的严格实证结果支撑了理论分析。

0
下载
关闭预览

相关内容

专知会员服务
22+阅读 · 2021年8月20日
Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
使用 Keras Tuner 调节超参数
TensorFlow
15+阅读 · 2020年2月6日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关资讯
Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
使用 Keras Tuner 调节超参数
TensorFlow
15+阅读 · 2020年2月6日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员