The rapid adoption of generative AI and Large Language Models (LLMs) has spurred interest in synthetic data as a privacy-preserving alternative to sensitive real-world datasets. However, generating high-utility synthetic data often carries the risk of memorizing and regurgitating private information from the training corpus. In this work, we present a customizable empirical auditing framework designed to detect and explain such data disclosures. Our framework introduces a mechanism to distinguish between "true disclosures"-where the system directly reproduces a user's information-and "phantom disclosures''-where the system incidentally generates a user's data. By partitioning input data into training and holdout sets and applying rigorous statistical hypothesis testing, we determine if observed disclosures are consistent with strict privacy baselines, such as zero-learning or specific Differential Privacy (DP) bounds. Crucially, this approach requires no model access, no canary insertion, and no reference model training -only the synthetic output and a held-out control set. We demonstrate that this framework effectively functions as a membership inference attack, providing empirical lower bounds on privacy leakage that are tighter than prior data-based auditing methods. Our approach is model-agnostic, applies to any synthetic data generation mechanism, and requires orders of magnitude fewer computational resources than shadow-model or canary-based alternatives.


翻译:生成式AI和大语言模型(LLMs)的快速普及,促使合成数据作为敏感真实数据集的隐私保护替代方案受到关注。然而,生成高可用性的合成数据往往存在记忆并复述训练语料中隐私信息的风险。本研究提出一种可定制的实证审计框架,旨在检测并解释此类数据泄露。该框架引入了一种区分机制:将系统直接复现用户信息的"真实披露"与系统偶然生成用户数据的"幻象披露"进行甄别。通过将输入数据划分为训练集和保留集,并应用严格的统计假设检验,我们可判定观测到的披露是否符合零学习或特定差分隐私(DP)边界等严格隐私基线。关键的是,该方法无需访问模型、插入金丝雀数据或训练参考模型——仅需合成输出与保留控制集。实验证明,该框架可有效作为成员推理攻击工具,提供比先前基于数据的审计方法更紧致的隐私泄露经验下界。本方法具有模型无关性,适用于任何合成数据生成机制,且计算资源需求比影子模型或金丝雀替代方案低数个数量级。

0
下载
关闭预览

相关内容

大型语言模型中隐性与显性偏见的综合研究
专知会员服务
17+阅读 · 2025年11月25日
【ACL2025教程】LLM时代的合成数据,228页slides
专知会员服务
31+阅读 · 2025年7月30日
《大语言模型的数据合成与增强综述》
专知会员服务
44+阅读 · 2024年10月19日
智能合约的形式化验证方法研究综述
专知
16+阅读 · 2021年5月8日
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
综述——隐私保护集合交集计算技术研究
计算机研究与发展
22+阅读 · 2017年10月24日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员