Synthetic network data generators (SynNetGens) are increasingly used to share realistic traffic traces without exposing sensitive raw data. While substantial effort has gone into improving fidelity, privacy is either assumed to be a built-in property of synthesis or addressed through differential privacy at the packet or flow level. This paper uncovers a fundamental privacy vulnerability: SynNetGens preserve cross-flow behavioral correlations that expose source-level membership, allowing an attacker to determine whether traffic of specific user, or service was included in the training data. This leakage arises from a mismatch in abstraction: existing SynNetGens operate and are protected at the packet or flow level, while sensitive information is encoded in correlations across flows from the same source. To demonstrate that this vulnerability is exploitable in practice, we develop TraceBleed, the first source-level membership inference attack against black-box SynNetGens. Our evaluation spans five datasets and six SynNetGens, revealing that: (i) every generator leaks source-level information on at least some datasets; (ii) flow- or packet-level differential privacy fails to protect source privacy unless fidelity is degraded to unusable levels; and (iii) releasing 10X more synthetic data amplifies leakage by 130% on average. To support ongoing research in this area, we will maintain a public privacy-fidelity leaderboard so practitioners can choose generators that fit their needs and researchers can benchmark new designs faithfully.


翻译:合成网络数据生成器(SynNetGens)越来越多地用于共享逼真的流量轨迹,而无需暴露敏感原始数据。尽管大量工作致力于提升保真度,但隐私要么被视为合成的固有属性,要么通过数据包或流级别的差分隐私来处理。本文揭示了一个根本性的隐私漏洞:SynNetGens保留了跨流行为相关性,从而暴露了源级成员关系,使得攻击者能够判断特定用户或服务的流量是否包含在训练数据中。这种泄漏源于抽象层面的不匹配:现有SynNetGens在数据包或流级别运行并受到保护,而敏感信息却编码在来自同一源的不同流之间的相关性中。为了证明此漏洞在实践中是可利用的,我们开发了TraceBleed,这是首个针对黑盒SynNetGens的源级成员推断攻击。我们的评估跨越了五个数据集和六个SynNetGens,揭示了:(i)每个生成器在至少某些数据集上泄漏源级信息;(ii)除非将保真度降低到不可用水平,否则流级别或数据包级别的差分隐私无法保护源隐私;(iii)释放10倍于原始大小的合成数据会使泄漏平均放大130%。为了支持该领域的持续研究,我们将维护一个公开的隐私-保真度排行榜,使从业者能够选择适合其需求的生成器,并让研究人员能够忠实地基准测试新设计。

0
下载
关闭预览

相关内容

【Yoshua Bengio】生成式流网络,Generative Flow Networks
专知会员服务
32+阅读 · 2022年3月19日
专知会员服务
48+阅读 · 2021年6月12日
【CVPR2020】MSG-GAN:用于稳定图像合成的多尺度梯度GAN
专知会员服务
29+阅读 · 2020年4月6日
联邦学习安全与隐私保护研究综述
专知
12+阅读 · 2020年8月7日
生成对抗网络GANs学习路线
专知
37+阅读 · 2019年6月10日
差分隐私保护:从入门到脱坑
FreeBuf
17+阅读 · 2018年9月10日
NetworkMiner - 网络取证分析工具
黑白之道
16+阅读 · 2018年6月29日
【干货】Lossless Triplet Loss: 一种高效的Siamese网络损失函数
机器学习研究会
29+阅读 · 2018年2月21日
综述——隐私保护集合交集计算技术研究
计算机研究与发展
22+阅读 · 2017年10月24日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
7+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
【Yoshua Bengio】生成式流网络,Generative Flow Networks
专知会员服务
32+阅读 · 2022年3月19日
专知会员服务
48+阅读 · 2021年6月12日
【CVPR2020】MSG-GAN:用于稳定图像合成的多尺度梯度GAN
专知会员服务
29+阅读 · 2020年4月6日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员